談談AI產品經理的產品開發流程

3 評論 11390 瀏覽 151 收藏 13 分鐘

本文作者以智能文檔審閱系統和工業互聯網數字孿生一故障預測為例,介紹AI產品經理在產品開發全流程過程中,每一階段的工作內容、工作流程及注意事項,并結合具體案例進行分析,希望能給你帶來一些啟發。

本文以智能文檔審閱系統(IDP)和工業互聯網數字孿生—故障預測為例,介紹AI產品經理在產品開發全流程過程中,每一階段的工作內容、工作流程及注意事項,并結合具體案例方便對AI產品經理感興趣的同學予以了解。文中盡量避免使用特征向量、歸一化、RNN等專業詞匯,可放心閱讀。

一、需求定義

內容:這一初始階段集中在從業務角度理解項目的目標和要求,然后把理解轉化為模型能力的定義和一個初步執行計劃。不僅要有整體技術研判力(可行性、技術難度、關鍵技術點),還要有業務洞察力,可以定義出可執行有價值的好問題。

流程:

注意:AI產品經理在本階段要特別注意模型能力邊界和模型類型確定。

案例:

這里說的模型類型除了回歸、分類、聚類、序列之外,還要基于具體業務考慮其他情形,比如在線還是離線,因為如果目標客戶比較注重數據安全,可能就會要求私有化部署,不允許連接外網調用模型接口。AI產品經理在需求分析階段明確模型基礎要求,也方便工程師在后續模型預研及成本分析方面提前有所考慮。

關于模型能力邊界。請看這一條業務需求“系統自動抽取合同簽訂日期、中標通知書通知日期并進行時序性校驗,合同簽訂日期不能早于中標通知書通知日期”,AI產品經理需要將此條業務需求的實現分解成先由模型執行抽取任務后,再由系統(平臺)進行時序性比較。因為不同類型模型可執行的下游任務不同,僅以自然語言處理任務層級舉例,如下圖,我們這里提到的模型能力邊界指的是第三次,即信息抽取、情感分析、問答系統、機器翻譯和對話系統等。

自然語言處理任務層級

二、模型預研

內容:需求確定之后,AI產品經理需要和工程師進行溝通,要判斷目前積累的數據和沉淀的算法,是否可以達到我們的業務需求。以及對原始數據的初步理解,發掘值得關注的數據子集以形成對隱藏信息的假設。

流程:

注意:在這個環節中,可能還需要根據算法工程師的預估,對上一階段的需求內容進行調整。

案例:此階段往往需要AI產品經理跟算法工程師經過多輪溝通,根據業務目標及原始數據質量的預估,確定模型預研的可行性等問題。比如以智能文檔分析(IDP)系統舉例,因為文檔類型及業務規則的多樣性往往需要多個模型共同完成一項業務需求,比如對一份合同的審核既需要對合同基本信息的抽?。ㄈ缂追?、乙方、簽訂日期),也需要對合同中建設內容的相似性進行判斷,還需要對合同中的表格數據進行分析。這就需要AI產品經理與工程師多次溝通,確定模型融合等解決方案的設計。

三、數據準備

內容:數據和特征決定了機器學習的上限,而模型和算法只是逼近這個上限?!皵祿蕚洹彪A段往往會占用整個工程60%以上的時間。產品經理基于對業務的理解,幫助工程師判斷哪些數據集更具備代表性,以及明確數據來源、數據質量處理措施。

流程:

注意:“數據質量”問題除了數據模式層面,還要關心應用場景下的數據質量問題,應用場景相關的數據質量問題,與研究問題的范疇和業務上下文有關,通常不容易發現,有一定規律但不存在通用的方法。

案例:“數據異?!币苍S是被忽略的一些“正常場景”。

【業務背景】風電機組大部分采用同步變槳,在正常情形下,三個槳距角應該非常接近。因此,在變槳驅動系統異常研判中,常常會將三個槳距角的不一致性(如角度差或短期時序相關度)作為一個重要特征。

【數據現象1】如下圖所示,某個風電機組在2013年8月9日21:45—21:47的表現。三個槳距角的初始值都在87.5°左右,然后三個槳距角逐步變為0°。

控制電路重啟造成三個槳距角的大差異

【業務解讀】這個過程實際上是調試過程中,變槳控制系統逐個重啟造成的。在2013年8月9日21:45:40左右,第一個變槳控制電路進行了人工重啟,然后依次對第二個、第三個進行了重啟。

【對數據準備的啟發】對于關鍵數據、關鍵結果要做必要的數據探索(畫圖或者看統計分布),數據中包含的內容超過我們的“預設”和“專家經驗”。

四、模型構建

內容:AI產品經理基于對需求和業務的理解,配合算法工程師進行數據集的準備、模型訓練、參數調優等等,及時跟進模型的目標優化,針對突發問題做出調整和決策。

流程:

注意:前面有提到“數據和特征決定了機器學習的上限,而模型和算法只是逼近這個上限?!彼惴üこ處焸兓ㄙM在特征工程建立上面的時間,基本上占整個模型構建的 60%。AI產品經理在此階段要盡量結合業務經驗預判、保證特征的穩定性。

案例:磨煤機堵磨檢測。

【數據特征】磨煤機堵磨研判,幾小時內,電流持續上升,伴隨入口風量下降。預將入口風量作為特征數據預測磨煤機堵磨。

【業務經驗】入口風量影響因素太多,測量穩定性差,不應作為主要研判依據:多臺磨煤機共用一個管道,它們的入口風量存在強耦合。

五、模型宣講

內容:產品經理組織業務及算法相關同事一起參與,算法同事幫忙說明使用了什么算法和選擇這個算法的原因,這個模型選擇了哪些重要特征,訓練的樣本,以及算法同學的測試方案與結果。AI產品經理要有目的的引導業務了解算法邏輯,并可以用非技術語言跟領導及客戶解釋清楚模型邏輯。

流程:無

注意:此階段主要對特征的來源,訓練樣本的合理性以及測試結果是否符合業務預期,是否合理進行評估預判。

案例:無

六、模型驗收

內容:在模型評估環節,產品經理需要做的是,根據業務需求挑選合適的測試樣本,請算法同學進行測試,并且提交測試結果。最后,再根據模型宣講和測試的內容編寫模型驗收報告。

流程:

注意:在不同場景下,由于我們的業務目標不同,對模型的要求不同,對模型統計性指標的關注點也不會相同。AI產品經理需要明確知道針對不同的AI模型對應不同的評估指標,并根據業務需求提出模型驗收要求。

案例:模型的評估主要包括三個部分:統計性、模型性能和模型穩定性。

統計性指標指的就是模型輸出結果的覆蓋度、最大值、最小值、人群分布等指標。以模型覆蓋度為例,它表示模型可以覆蓋人群的百分比,它的計算公式是:模型的覆蓋度= 模型可以打分的人數 / 需要模型打分的人數。覆蓋度越高,代表模型可以打分的人數越多,也就是說模型可以評估更多人。如果模型覆蓋度過低,即使它的性能表現很好,在某些業務場景下模型也不可用。

模型性能和穩定性評估:分類模型的性能評價指標主要包括:混淆矩陣、KS、AUC 等?;貧w模型的性能評價指標主要包括:MAE(平均絕對誤差)、MSE(均方誤差)、RMSE(均方根誤差)、R 方等。具體指標的介紹及分析有很多資料介紹,感興趣的同學可以查一下,這里不再贅述。

工程開發、測試驗收模塊與傳統互聯網沒有區別這里不再過多介紹。此外對于在線模型,在上線運營后需要對模型評估指標及特征持續性關注,可建立簡單的監測系統定時監查。

參考書籍:

田春華 :《工業大數據分析算法實戰》

車萬翔:《自然語言處理:基于預訓練模型的方法》

劉海峰:《AI產品經理:方法、技術與實戰》

本文由 @葉秋 原創發布于人人都是產品經理,未經作者許可,禁止轉載。

題圖來自Unsplash,基于CC0協議。

該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 這個所謂流程也不是通用的吧,感覺就只適合工業產品

    來自上海 回復
    1. 嗯嗯,是的

      來自北京 回復
  2. 不妥之處多多指正哈,v:shsky231

    來自北京 回復