中文慕无码久久av,欧美综合精品久久久久成人影院,国产亚洲真人做受在线观看

搜索

APP

起點課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會員專屬社群

榮耀標(biāo)識

發(fā)布

注冊 | 登錄

詳解AI產(chǎn)品經(jīng)理工作全流程

厚謙

2024-05-26

0 評論 5824 瀏覽 73 收藏

21 分鐘

自從ChatGPT之類的大模型爆火之后，AI產(chǎn)品經(jīng)理也開始水漲船高受到更多人的青睞，不少同學(xué)都想轉(zhuǎn)去做AI產(chǎn)品。那你知道其工作流程是怎樣的嗎？這篇文章，我們就來分享一下。

一、AI產(chǎn)品經(jīng)理工作全流程概覽

AI產(chǎn)品經(jīng)理工作全流程中與普通產(chǎn)品經(jīng)理的區(qū)別主要是多了算法模型部分，包括模型預(yù)研、數(shù)據(jù)準(zhǔn)備、模型構(gòu)建、模型宣講、模型驗收，協(xié)作的對象相對普通產(chǎn)品經(jīng)理也多了算法工程師。

二、需求定義

需求定義主要要定義清楚以下幾點：

做什么?
為什么要做，有什么收益和價值？
業(yè)務(wù)預(yù)期目標(biāo)、上線期限？

為了方便理解，我們以開發(fā)一套篩選薅羊毛用戶的產(chǎn)品進行舉例說明。

1、項目背景

團隊發(fā)現(xiàn)負(fù)責(zé)的項目數(shù)據(jù)統(tǒng)計有些異常，細(xì)查之后，發(fā)現(xiàn)存在夜間偷數(shù)據(jù)的情況，大致行為路徑如下：

淘寶上買一批手機號，注冊新賬號。
通過自動薅羊毛的方式（新手禮包、每日簽到、周任務(wù)等），獲取免費券等資源。
夜深人靜的時候，使用免費券或積分批量下載數(shù)據(jù)。

亡羊補牢，猶未晚矣。我們決定開發(fā)一套篩選薅羊毛用戶的產(chǎn)品，徹底堵住這個缺口。

2、做什么？

開發(fā)一套篩選薅羊毛用戶的產(chǎn)品。具體設(shè)計大概思路如下：

在領(lǐng)取新手禮包或周任務(wù)獎勵時，需要用戶綁定手機號（薅羊毛時簡單卡一下，以免影響正常的用戶體驗）。
在使用券進行下載操作時，判斷是薅羊毛用戶的概率，并根據(jù)概率高低分成正常、疑似、高危三類。
針對“疑似”用戶，就觸發(fā) 極驗或驗證碼校驗等邏輯。針對高危用戶，就鎖定賬號，并在激活時要求綁定微信，避免再出現(xiàn)大量偷數(shù)據(jù)的情況。

3、為什么要做，有什么收益和價值？

減少公司做活動發(fā)放福利時被薅羊毛，讓福利觸達(dá)給有效的用戶。

4、業(yè)務(wù)預(yù)期目標(biāo)、上線期限？

離線/實時模式：支持實時判斷，所以應(yīng)該定義為實時模型。
覆蓋率：期望該模型的覆蓋率為100%，面向所有用戶。
傾向：盡可能找出所有羊毛黨，追求高“召回率”，可以接受一定程度的誤報。寧可錯殺一千，不可放過一個。
上線期限：雙十一前得上線，離現(xiàn)在還有半年時間。

三、模型預(yù)研

AI產(chǎn)品經(jīng)理把需求同步給算法工程師，算法工程師需判斷目前積累的數(shù)據(jù)和沉淀的算法是否可以達(dá)到業(yè)務(wù)需求。

如果現(xiàn)有數(shù)據(jù)不滿足需求，要么增加埋點補齊數(shù)據(jù)，要么想辦法獲取目標(biāo)數(shù)據(jù)，要么替換成其他類似數(shù)據(jù)。

如果算法支持度不夠，可能需要調(diào)整需求內(nèi)容，以便達(dá)到更適配的效果。以該項目為例，實時模式的話，可能會對原業(yè)務(wù)的響應(yīng)速度有一定影響，所以最后調(diào)整為離線模型，每天定時處理前一天的用戶數(shù)據(jù)。

四、數(shù)據(jù)準(zhǔn)備

對于算法同學(xué)而言，他只能根據(jù)現(xiàn)有的數(shù)據(jù)分析哪些特征對于模型有用，但是，AI產(chǎn)品經(jīng)理對業(yè)務(wù)理解更深，通過判斷哪些數(shù)據(jù)、哪些特征對模型提升有幫助，把自己想到的要點和技術(shù)溝通，得到更完善的數(shù)據(jù)集，再動手去獲取數(shù)據(jù)。

比如該用戶是否主要在夜間活動？操作頻率是否過高？短時間內(nèi)同一臺終端是否登錄過多個用戶？用戶是否觸發(fā)過新手引導(dǎo)？

盡可能準(zhǔn)確的找到羊毛黨用戶的特征，對模型質(zhì)量的提升會有極大的幫助。

獲取數(shù)據(jù)時，主要分為以下三類（有時也可與其他公司聯(lián)合建模）：

1、內(nèi)部業(yè)務(wù)數(shù)據(jù)

如果以前業(yè)務(wù)有相關(guān)數(shù)據(jù)，那么我們可以從以前業(yè)務(wù)保留的數(shù)據(jù)中選取使用；如果當(dāng)前沒有相關(guān)數(shù)據(jù)，而我們有相關(guān)業(yè)務(wù)可以獲得數(shù)據(jù)，我們通過增加埋點的方式將數(shù)據(jù)留存。

2、跨部門數(shù)據(jù)

其他部門數(shù)據(jù)或統(tǒng)一的中臺數(shù)據(jù)，這些數(shù)據(jù)需要我們根據(jù)公司的數(shù)據(jù)管理規(guī)范流程提取，在數(shù)據(jù)提取的時候注意篩選有效數(shù)據(jù)。

3、外采數(shù)據(jù)

根據(jù)我們的需求向外部公司購買數(shù)據(jù)。我們需要了解市場上不同公司都可以提供什么數(shù)據(jù)，比如：極光、友盟提供的是開發(fā)者服務(wù)，所以他們可以提供一些和App相關(guān)的用戶畫像，比如運營商可以提供上網(wǎng)流量、話費等相關(guān)數(shù)據(jù)。

進行外采數(shù)據(jù)需要注意兩點：外采公司的資質(zhì)審核、采集數(shù)據(jù)的合法性（需要考慮數(shù)據(jù)安全和消費者隱私保護）。

五、模型構(gòu)建

模型構(gòu)建的具體流程如下：

1、模型設(shè)計

模型設(shè)計階段，我們需要考慮該選擇什么樣的算法，目標(biāo)變量應(yīng)該怎么設(shè)置、數(shù)據(jù)源應(yīng)該有哪些、數(shù)據(jù)樣本如何獲取，是隨機抽取還是分層抽樣。

a.算法選擇

于其需求定義，模型需要計算出用戶是薅羊毛用戶的概率，并根據(jù)概率高低分為正常、疑似、高危三類，最終技術(shù)同學(xué)決定采用邏輯回歸算法來實現(xiàn)該需求。

邏輯回歸算法具有計算速度快、可解釋性強的優(yōu)點，適用于解決需求中的多分類問題，而且還可以對用戶“為什么封號”的質(zhì)疑，有較強的解釋性。

b.定義目標(biāo)變量及抽取樣本

在模型設(shè)計階段最重要的就是定義模型目標(biāo)變量，以及抽取數(shù)據(jù)樣本。

不同的目標(biāo)變量，決定了這個模型應(yīng)用的場景，以及能達(dá)到的業(yè)務(wù)預(yù)期。

樣本是用來做模型的基礎(chǔ)。在選取樣本的時候，你需要根據(jù)模型的目標(biāo)、業(yè)務(wù)的實際場景來選擇合適的樣本。必須要考慮季節(jié)性和周期性的影響。另外，還要考慮時間跨度的問題。建議你選擇近期的數(shù)據(jù)，并結(jié)合跨時間樣本的抽取，來降低抽樣的樣本不能描述總體的這種風(fēng)險。

2、特征工程

所有模型的輸入都是數(shù)量化的信息（用向量、矩陣或者張量的形式表示的信息），所以我們需要通過某種方式，把各種類型的數(shù)據(jù)轉(zhuǎn)化成數(shù)量化的信息，這個過程就是特征工程。

特征工程是模型構(gòu)建過程中最重要的部分，如果我們可以挑選到足夠優(yōu)質(zhì)的特征，不僅可以提升模型性能，還能降低模型的復(fù)雜度，（當(dāng)選擇了優(yōu)質(zhì)的特征之后，即使你的模型參數(shù)不是最優(yōu)的，也能得到不錯的模型性能，你也就不需要花費大量時間去尋找最優(yōu)參數(shù)了，從而降低了模型實現(xiàn)的復(fù)雜度。）大幅簡化構(gòu)建過程。

數(shù)據(jù)和特征決定了模型的上限，而模型和算法只是逼近這個上限而已。

以薅羊毛項目為例，我們可以通過用戶是否在夜間活動、操作頻率、歷史訂單、完成活動速度、同一臺終端是否登錄多個賬號等一系列特征，來表達(dá)是薅羊毛用戶的可能性，這就是建立了薅羊毛用戶的特征工程。我們可以通過這些特征來判斷用戶的可疑程度。

特征過程包括以下四個流程：

1）數(shù)據(jù)清洗

數(shù)據(jù)清洗主要是算法工程師要做的工作，主要是對數(shù)據(jù)進行重新審查和校驗，解決數(shù)據(jù)可能存在的數(shù)據(jù)缺失、有異常值或無效值、數(shù)據(jù)不均衡（比如前面部分?jǐn)?shù)據(jù)表現(xiàn)好，后面部分?jǐn)?shù)據(jù)表現(xiàn)不好）、單位不一致等問題。

對數(shù)據(jù)缺失，算法工程師可以通過刪除缺失值或者補充缺失值的手段來解決它。

對于數(shù)據(jù)不均衡的問題，因為數(shù)據(jù)偏差可能導(dǎo)致后面訓(xùn)練的模型過擬合或者欠擬合，所以算法工程師取數(shù)據(jù)時需要考慮均衡問題。

2）特征提取

從原始數(shù)據(jù)中提取有用的特征，將其轉(zhuǎn)化為一組更具代表性和可解釋性的特征。特征提取的目的是減少原始數(shù)據(jù)的維度，提高數(shù)據(jù)的表達(dá)能力，幫助算法進行更好的完成任務(wù)。

一般提取出的特征會有 4 類常見的形式，分別是數(shù)值型特征數(shù)據(jù)、標(biāo)簽或者描述類數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、關(guān)系型數(shù)據(jù)。

數(shù)值型特征：如消費金額、好友人數(shù)、瀏覽頁面次數(shù)等（相關(guān)的業(yè)務(wù)操作數(shù)據(jù)、運營數(shù)據(jù)）。一般來說，會首先提取主體特征，再提取其他維度特征。
標(biāo)簽或描述類特征：如有房、有車、高付費，用來打標(biāo)簽。
非結(jié)構(gòu)化特征：如內(nèi)容評論，需要判斷是否有負(fù)面情緒。非結(jié)構(gòu)化數(shù)據(jù)一般存在于 UGC（User Generated Content，用戶生成內(nèi)容）內(nèi)容數(shù)據(jù)中。提取非結(jié)構(gòu)化特征的一般做法就是，對文本數(shù)據(jù)做清洗和挖掘，挖掘出在一定程度上反映用戶屬性的特征。
關(guān)系型數(shù)據(jù)特征：如通訊錄、收獲地址、商品分享（一般分享給親朋）、LBS位置信息等維度數(shù)據(jù)。比如說，在京東購物時，你和一個人在同一收貨地址上，如果這個收貨地址是家庭地址，那你們很可能就是家人。

3）特征選擇

特征在選擇時主要有覆蓋度、IV 值（信息價值）、穩(wěn)定性等指標(biāo)。

LV值指的是表示特征對目標(biāo)預(yù)測的貢獻程度，LV值有限定條件，一是面向的任務(wù)必須是有監(jiān)督的任務(wù)；二是預(yù)測的模型必須是二分類模型。

4）生成測試集與訓(xùn)練集

算法同學(xué)為了給模型訓(xùn)練做最后的準(zhǔn)備，需要把數(shù)據(jù)分成訓(xùn)練集和測試集，他們會使用訓(xùn)練集來進行模型訓(xùn)練，會使用測試集驗證模型效果，

3. 模型訓(xùn)練

模型訓(xùn)練是通過不斷訓(xùn)練、驗證和調(diào)優(yōu)，讓模型達(dá)到最優(yōu)的過程。就是要找到一個劃分條件（決策邊界），使得準(zhǔn)確率（擬合）最高的同時兼顧穩(wěn)定性（泛化性能）。這里涉及幾個名詞需要理解：

a、決策邊界

那么怎么達(dá)到最優(yōu)呢？就是要繪制一條比較好的決策邊界。

決策邊界：就是在符合某種條件做出某種選擇的條件，根據(jù)這個條件可以將結(jié)果進行劃分。比如說：下午6：00不寫完這篇博客我不吃飯，那么寫完了就去吃，沒寫完就不吃。這個條件就是我們說的決策邊界。

決策邊界分為：線性決策邊界和非線性決策邊界。下圖中，圖1為線性決策邊界，圖2、圖3為非線性決策邊界。

決策邊界曲線的平滑程度和算法訓(xùn)練出來的模型能力息息相關(guān)。曲線越陡峭模型的測試精度越準(zhǔn)確（可以理解為不是一刀切），但是越陡峭的曲線模型越不穩(wěn)定。

b、擬合與泛化

模型的“最優(yōu)”，指的是模型擬合能力和泛化能力的平衡點。

擬合能力：模型在已知數(shù)據(jù)上（訓(xùn)練集）表現(xiàn)的好壞
泛化能力：模型在未知數(shù)據(jù)上（測試集）表現(xiàn)的好

如果想讓模型有足夠好的擬合能力，就需要構(gòu)建一個復(fù)雜的模型對訓(xùn)練集進行訓(xùn)練，但是模型越復(fù)雜就會越依賴訓(xùn)練集的數(shù)據(jù)，就越可能出現(xiàn)訓(xùn)練集的表現(xiàn)很好，但在測試集上表現(xiàn)差的情況，泛化能力比較差，這種情況叫做“過擬合”。

如果想讓提高模型的泛化能力，就要降低模型復(fù)雜度，減少對訓(xùn)練集的依賴，但如果過度降低復(fù)雜度，又可能導(dǎo)致“欠擬合”的情況。

過擬合：模型把數(shù)據(jù)學(xué)習(xí)的太徹底，甚至把噪聲數(shù)據(jù)的特征也學(xué)習(xí)到了，就導(dǎo)致不能很好的識別未知數(shù)據(jù)，模型泛化能力下降。訓(xùn)練集表現(xiàn)很好，但是測試集很差。讀的是“死書”，并沒有真正掌握書里的精髓，自然就無法很好的應(yīng)用了。產(chǎn)生過擬合的原因一般有：特征過多，模型復(fù)雜度過高，樣本數(shù)據(jù)無法代表預(yù)定的分類，樣本噪音干擾過大等。
欠擬合：模型不能很好的捕捉數(shù)據(jù)特征，不能很好的擬合數(shù)據(jù)。在訓(xùn)練集的表現(xiàn)就很差，需要繼續(xù)努力“學(xué)習(xí)”。產(chǎn)生欠擬合的原因一般有：模型復(fù)雜度過低、特征量過少等。

c、交叉驗證

算法工程師就這樣不斷的調(diào)整模型參數(shù)、訓(xùn)練，再用交叉驗證的方式，逐漸找到擬合能力和泛化能力的平衡點，這個平衡點就是我們訓(xùn)練模型的目標(biāo)。

交叉驗證：一種評估機器學(xué)習(xí)模型性能的有效方法，可以用于選擇最佳模型參數(shù)、模型選擇以及避免過擬合等問題。包括簡單交叉驗證、留出交叉驗證、自助交叉驗證等方法。如把測試數(shù)據(jù)進行進行封箱處理，后隨機對一些分箱測試結(jié)果取平均值。

4、模型驗證

經(jīng)過復(fù)雜的模型訓(xùn)練，我們終于得到了一個所謂的“最優(yōu)解”，但是怎么證明這個最優(yōu)解就是真正的最優(yōu)解呢？我們需要模型驗證階段來確認(rèn)這個“最優(yōu)解”的真假。

模型驗證一般通過模型的性能指標(biāo)和穩(wěn)定性指標(biāo)來評估。

模型性能，就是模型預(yù)測的準(zhǔn)確性。

分類模型性能評估：分類模型的預(yù)測結(jié)果是具體的分類，一般使用召回率、F1、KS、AUC等評估指標(biāo)，來判斷分類模型的性能。

回歸模型性能評估：回歸模型的預(yù)測結(jié)果是連續(xù)值，一般使用方差和MSE等評估指標(biāo)，來判斷回歸模型的性能。

模型穩(wěn)定性，指的是模型性能可以持續(xù)多久，一般使用PSI指標(biāo)來評估模型的穩(wěn)定性。

PSI指標(biāo)，指模型穩(wěn)定性指標(biāo)（或稱為客情穩(wěn)定性指標(biāo)），PSI越小越好，如果PSI>0.25說明穩(wěn)定性很差。

綜上：模型驗收環(huán)節(jié)，AI產(chǎn)品經(jīng)理需要知道常用的性能指標(biāo)與穩(wěn)定性指標(biāo)，并且知道其合理的范圍。AI產(chǎn)品經(jīng)理對模型驗證環(huán)節(jié)格外關(guān)注，需要深入理解評估指標(biāo)、計算邏輯，并能根據(jù)指標(biāo)的數(shù)據(jù)判斷模型效果是否達(dá)標(biāo)。