伊人狠狠色丁香婷婷综合男同,婷婷五月日韩av永久免费,av无码中文字幕不卡一区二区三区

APP

起點課堂會員權益

職業體系課特權

線下行業大會特權

個人IP打造特權

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業技能直播

會員專屬社群

榮耀標識

發布

注冊 | 登錄

一文讀懂：機器學習模型構建全流程

AI小當家

2023-12-20

1 評論 3101 瀏覽 22 收藏

10 分鐘

本文是系列文章的第二篇，會具體產出模型構建環節的具體內容。閱讀本文前，建議先閱讀上篇文章，可以知道模型構建環節處于AI產品構建的哪個位置。

上文以薅羊毛項目為例，簡單介紹了AI產品構建的全流程，其中模型構建、模型評估等重點環節只是一筆帶過。今天我們來了解一下模型構建環節的具體內容。

模型構建，其實就是從繁雜的數據中提取那些最能解釋數據本質的特征，再利用算法建立出對未知數據有準確預測能力模型的過程。

模型構建主要包括5個階段，分別為算法選擇、特征工程、模型訓練、模型驗證和模型融合。

以上文薅羊毛項目為例，基于其需求定義，模型需要計算出用戶是薅羊毛用戶的概率，并根據概率高低分為正常、疑似、高危三類，最終技術同學決定采用邏輯回歸算法來實現該需求。

邏輯回歸算法具有計算速度快、可解釋性強的優點，適用于解決需求中的多分類問題，而且還可以對用戶“為什么封號”的質疑，有較強的解釋性。

目前大家對算法有個概念就可以，后續篇章中會對常見的算法進行較詳細的介紹。

確定算法之后，我們就可以進入特征工程階段了。

特征工程是模型構建過程中最重要的部分，如果我們可以挑選到足夠優質的特征，不僅可以提升模型性能，還能降低模型的復雜度，大幅簡化構建過程。

數據和特征決定了模型的上限，而模型和算法只是逼近這個上限而已。

所有模型的輸入都是數量化的信息，所以我們需要通過某種方式，把各種類型的數據轉化成數量化的信息，這個過程就是特征工程。

以薅羊毛項目為例，我們可以通過用戶是否在夜間活動、操作頻率、歷史訂單、完成活動速度、同一臺終端是否登錄多個賬號等一系列特征，來表達是薅羊毛用戶的可能性，這就是建立了薅羊毛用戶的特征工程。我們可以通過這些特征來判斷用戶的可疑程度。

特征過程包括以下四個流程：

數據清洗：數據預處理的重要環節，主要是對數據進行重新審查和校驗，檢查數據一致性、處理無效值和缺失值等。
特征提取：從原始數據中提取有用的特征，將其轉化為一組更具代表性和可解釋性的特征。特征提取的目的是減少原始數據的維度，提高數據的表達能力，幫助算法進行更好的完成任務。
特征選擇：篩選出對分類或回歸有重要貢獻的特征，從而降低數據集復雜度，提高模型的泛化能力。
生成訓練集和測試集：把整理過的數據分為訓練集和測試集，為模型訓練做最后的準備。

構造機器學習模型的目的，是希望從原始數據中梳理出問題的結構，學習到問題的本質，那些優質的特征其實就是對問題本質的最好詮釋，而如何找到優質特征自然也就成為了模型構建的核心工作。

特征工程的內容很多，也非常重要，建議自己主動去查一下資料，詳細了解一下數據清洗、數據提取、數據選擇的各種方法，對該環節了解越深入，和算法同學的溝通越順暢。

模型訓練是通過不斷訓練、驗證和調優，讓模型達到最優的過程。

這里的“最優”，指的是模型擬合能力和泛化能力的平衡點。

如果想讓模型有足夠好的擬合能力，就需要構建一個復雜的模型對訓練集進行訓練，但是模型越復雜就會越依賴訓練集的數據，就越可能出現訓練集的表現很好，但在測試集上表現差的情況，泛化能力比較差，這種情況叫做“過擬合”。

如果想讓提高模型的泛化能力，就要降低模型復雜度，減少對訓練集的依賴，但如果過度降低復雜度，又可能導致“欠擬合”的情況。

過擬合：模型把數據學習的太徹底，甚至把噪聲數據的特征也學習到了，就導致不能很好的識別未知數據，模型泛化能力下降。訓練集表現很好，但是測試集很差。讀的是“死書”，并沒有真正掌握書里的精髓，自然就無法很好的應用了。產生過擬合的原因一般有：特征過多，模型復雜度過高，樣本數據無法代表預定的分類，樣本噪音干擾過大等。
欠擬合：模型不能很好的捕捉數據特征，不能很好的擬合數據。在訓練集的表現就很差，需要繼續努力“學習”。產生欠擬合的原因一般有：模型復雜度過低、特征量過少等。

算法工程師就這樣不斷的調整模型參數、訓練，再用交叉驗證的方式，逐漸找到擬合能力和泛化能力的平衡點，這個平衡點就是我們訓練模型的目標。