策略產品經理:模型訓練常知的六種算法
策略產品經理需要了解一定的算法邏輯,以便推進工作。這篇文章里,作者介紹了六種常見算法,并探討了產品設計模型算法的選擇,一起來看。
一、工業界常用算法
作為與算法同學對接的策略產品經理,我們必須對算法同學常用的算法邏輯有所了解,以下我將介紹相關的底層算法邏輯,以及它們所適用的任務類型。
1. 邏輯回歸(logistics regression,LR)
- 模型訓練類別:監督學習算法。
- 適用問題任務:分類。
- 算法特色:復雜度低,可解釋性強,線上效果好。
函數公式:
y表示模型預估值,取值范圍[0,1],x表示輸入模型的特征值,可以理解為最終使用的一系列特征對應的具體數值;T表示矩陣的轉置,無實際數值意義;w表示模型為每一個特征訓練出的對應參數。以CTR預估模型為例,邏輯回歸模型輸出的預測值代表的業務意義是用戶對物料的興趣度。
另外,雖然線性回歸(linear regression)與邏輯回歸簡稱均為LR,但是線性解決回歸問題,邏輯解決分類問題,邏輯回歸模型包含線性回歸模型,便是線性回歸模型。
2. K近鄰算法(K-nearest neighbor,KNN)
- 模型訓練類別:監督學習算法。
- 適用問題任務:分類、回歸。
- K的取值是關鍵因素,需要用交叉驗證法(測試集+訓練集)驗證。
- 注:使用KNN算法的思想是每一位策略產品經理都需要了解的。
分類任務:
1.計算待分類點(黑叉)與其他已知類別點的距離。
2.按距離正排,占比最好的類別即為待分類點的類別,計算方法有①歐式距離、②曼哈頓距離。
回歸任務:
整體思路與分類任務一致,預測點的值等于離預測點最近K個點的平均值。
總結:
KNN算法沒有模型訓練緩解,而是直接應用,所以KNN算法在訓練環節的時間復雜度為0,但是在應用環節,隨著樣本量陡增、復雜度的增加,在對于效率要求極高的場景下無法使用KNN算法。
3. 貝葉斯模型(Bayes Model)
- 模型訓練類別:監督學習算法。
- 適用問題任務:分類。
- 模型方向:“逆概率”問題,用于郵件分類,天氣預測。
函數公式:
4. K聚類算法(K-Means)
- 模型訓練類別:無監督學習算法。
- 適用問題任務:聚類。
- K-Means沒有模型訓練環節,利用啟發式迭代,K值的選擇由業務場景確定,如無需求,可試數。
步驟:
- 將所有樣本分成幾個簇,即設定K值。
- 模型重新計算新簇質心,再次歸類。
- 不斷重復、優化。
5. 決策樹(decision tree)
- 模型訓練類別:監督學習算法。
- 適用問題任務:分類、回歸。
- 核心思想:根據有區分性的變量查分數據集。
基本框架要素:
1.根節點:包含所有原始樣本數據,會被進一步分割成多個子集合。
2.決策節點和葉子節點:葉子節點“不再被分割”,但可以分,決策節點根據特征繼續分割。
3.父節點與子節點:被分割成子節點的節點被稱為子節點的父節點。
決策樹種類: ①分類樹 ②回歸樹
決策樹效果評估:選擇哪些特征組合構建效果最好呢?
- 分類樹:基尼不純度評估,不純度越低,效果越好。
- 回歸樹:方差指標評估,方差越小模型擬合效果越好。
決策樹關鍵參數:
- 節點拆分包含的最小樣本數:過大欠擬合,過小過擬合,需要交叉驗證來調參。
- 葉子節點包含的最小樣本數:防葉子節點太多,對于正負樣本不均的情況可以分小。
- 決策樹最大深度:交叉驗證解決。
- 總體葉子節點數量控制。
- 整體分裂中使用最多的特征數:根據建模經驗,開根號的特征數為最佳特征數。
6. 深度神經網絡(deep neutral network)
網上有很多資料介紹,可以自己找一下。
簡單介紹,深度學習中的“深度”指的是其hidden layer,在輸出層和輸入層中,隱藏層越多深度越大。深度學習與常規神經網絡算法的區別主要體現在訓練數據、訓練方式、層數方面。
目前在產品策劃領域,深度學習可以解決安防領域、零售行業的視覺識別問題,也有如ChatGPT等的自然語音識別、語言處理等應用,實體企業如智能駕駛中的地位正在提升,其最早被應用與搜光腿的算法模型中。
二、產品設計模型算法的選擇
對于同種業務場景可能使用多種算法,然而作為產品經理,我們需要重點考核模型的兩大要點:模型預測的準確性和模型的可解釋性。
對于金融風控等受到強監管的場景,我們更偏向于使用具有可解釋性的模型,而對于搜廣推等產品體驗場景,我們更看重產品的使用效果,以下是各類算法的使用效益分布圖:
本文由 @產品研習中 原創發布于人人都是產品經理。未經作者許可,禁止轉載
題圖來自Unsplash,基于CC0協議
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。
- 目前還沒評論,等你發揮!