策略產品 ①算法邏輯
機器學習是AI的關鍵技術之一,是指機器從歷史數據中學習規律,從而提升系統某個性能度量的過程。這篇文章,我們在作者的帶領下梳理下全流程。
機器學習,機器從歷史數據中學習規律,從而提升系統某個性能度量的過程。在工業界中的應用主要為:研究如何讓計算機從歷史數據中更好地學習,從而產生一個優秀模型以提升系統某項性能的學科。
1952年,“Machine Learning”的概念被提出。
一、機器學習與AI的關系
AI是一個領域,1956年8月被正式提出,主要包括三大要素:算法、算力、算據。機器學習便是其中的算法,算力指的是計算資源,最主要的是芯片。故而AI包含機器學習,而機器學習這一實現AI的方法論包括傳統機器學習、深度學習、強化學習、深度強化學習等子技術。
AI分為三個階段:弱人工智能、強人工智能、超人工智能。
- 弱人工智能:專注某方面能力,智商高,情商為0
- 強人工智能:可以批評性思考,智商情商均高
- 超人工智能:智商與情商全面超越人類,思維多元化。
二、機器學習全流程
1.?問題定義
利用機器學習構建模型需要考慮以下問題定義,問題定義清楚后再考慮以下3個問題。
1)機器學習的任務類型是什么?
機器學習的任務類型可以分成兩大類:一類是預測類任務,如銷量預測、推薦系統、人臉識別等,一類為生成類任務,基于歷史數據學習后,可以從零生成任務,具體細化分類如下
2)使用什么算法來構建模型
任務類型確定后,可以結合具體場景確定使用什么算法。
以CTR預估模型為例,工業界搞起普遍使用LR(logistics regression,邏輯回歸)算法,現在多使用DNN(deep neutral network,深度神經網絡)算法。
3)如何評估模型的好壞
不同任務類型需要使用不同指標來評估模型效果。對于CTR預估模型,離線訓練時應該使用AUC(area under curve,曲線下面積)指標進行評估。。
2.?數據處理
數據處理分為4步:數據收集、數據清晰、數據標注、數據切分。
以用戶CTR為例進行說明:
- 數據收集:確定需使用的數據,分為正樣本(用戶點擊)和負樣本(用戶不點擊)、基本信息特征(最好近期,樣本量大時可以隨機抽樣)
- 數據清洗:剔除臟數據、測試數據、無效數據、統一字段含義。
- 數據標注:人工達標分類,明確樣本標簽
- 數據切分:訓練集+測試集測試擬合效果,調試防過擬合/不擬合。(注:小心“數據穿越”問題的出現)
3.?特征工程
模型效果一部分由數據質量決定,一部分由特征工程決定。挑選使用場景下最適合、最有效的特征并加入模型,這就是特征工程的工作。此時業務專家的經驗輸入可以幫助鎖定有效特征。
4.?模型訓練
常見的模型訓練方法有四種:監督學習、無監督學習、半監督學習、強化學習,主要區分點在于是否數據打標、算法模式。
- 監督學習:打好已知訓練數據的標簽,目的明確的學習特征。
- 無監督學習:直接訓練數據模型,原因:數據雜亂、標注成本高、區分標準難確定,方式比如聚類
- 半監督學習:有的達標,有的不打
- 強化學習:不需要達標,與環境互動,獎勵/懲罰+反饋調整。
經過數據+算法輸入,構建完特征工程后即有初版模型,表現形式為函數,如y=ax+by+cz+d,模型訓練結果可能出現欠擬合、過擬合、正常三種情況。
5.?模型評估
模型評估主要指離線效果評估,不是在線上做小流量的ABTest試驗,需要在測試集上進行驗證,對于不同任務有不同的關注點。
- 分類任務:召回率、精準率、AUC指標
- 聚類任務:聚類純度、蘭德系數
- 回歸任務:MSE、RMSE、R-Squared。
6.?模型應用
在線上真實環境進行效果測試。用戶行為變化、數據迭代速度是影響因素,所以需要線上不斷調優。
本文由 @產品研習中 原創發布于人人都是產品經理。未經作者許可,禁止轉載
題圖來自Unsplash,基于CC0協議
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務
- 目前還沒評論,等你發揮!