AI產品經理需要了解的數據標注工作入門
本文作者@Jasmine ,文章主要分享我們該如何在對AI行業一無所知的情況下,快速了解到它的流程運作,并找準機會轉行。
Hi,我是@Jasmine,一位AI產品經理。在正式內容之前,我想跟大家簡單分享一下我的經歷:我大學本科不是IT相關,甚至在我工作之前,我沒有做過任何與互聯網相關的實習工作。
而現在我能負責公司的重點項目,證明了進入AI行業并不是你們想象中的那么困難。直至今天,我仍在這條道路上不斷學習,也希望有更多的朋友給予我指點。
現在我就來說說,如何在對AI行業一無所知的情況下,快速了解到它的流程運作,并找準機會轉行。
一、簡單了解AI應用范圍
(上圖,來自智能玩咖)
AI的應用領域非常非常廣,上圖只是大家相對熟悉的幾個,而且每一個領域用到的算法都不一樣。有很多想轉型的產品,第一個考慮的點就是:不懂技術就做不了AI,我是不是學完算法才能入行?
其實不是。
大家可能知道:
- 不僅算法重要,很多時候數據可能更重要;有保質保量的數據,才可能有好的訓練效果。
- 數據可分為兩種類型:“被標記過”的數據和“未被標記過”的數據。什么是標記呢?意同“貼標簽”,當你看到一個西瓜,你知道它是屬于水果。那么你就可以為它貼上一個水果的標簽。算法同事用“有標簽的數據”去訓練模型,這里就有了“監督學習”。
重點就是這里:只要是跟“監督學習”沾邊的產品/技術,比如圖像識別、人臉識別、自然語言理解等等,他們都有一個必走的流程——
不斷地用標注后的數據去訓練模型,不斷調整模型參數,得到指標數值更高的模型。
二、數據處理流程拆解
1、數據標注
數據的質量直接會影響到模型的質量,因此數據標注在整個流程中絕對是非要重要的一點。
1)一般來說,數據標注部分可以有三個角色
- 標注員:標注員負責標記數據。
- 審核員:審核員負責審核被標記數據的質量。
- 管理員:管理人員、發放任務、統計工資。
只有在數據被審核員審核通過后,這批數據才能夠被算法同事利用。
2)數據標記流程
- 任務分配:假設標注員每次標記的數據為一次任務,則每次任務可由管理員分批發放記錄,也可將整個流程做成“搶單式”的,由后臺直接分發。
- 標記程序設計:需要考慮到如何提升效率,比如快捷鍵的設置、邊標記及邊存等等功能都有利于提高標記效率。
3)進度跟蹤:程序對標注員、審核員的工作分別進行跟蹤,可利用“規定截止日期”的方式淘汰怠惰的人。
4)質量跟蹤:通過計算標注人員的標注正確率和被審核通過率,對人員標注質量進行跟蹤,可利用“末位淘汰”制提高標注人員質量。
2、模型訓練
這部分基本交由算法同事跟進,但產品可依據需求,向算法同事提出需要注意的方面;
舉個栗子——
背景:一個識別車輛的產品對大眾車某系列的識別效果非常不理想,經過跟蹤發現,是因為該車系和另外一個品牌的車型十分相似。那么,為了達到某個目標(比如,將精確率提高5%),可以采用的方式包括:
- 補充數據:針對大眾車系的數據做補充。值得注意的是,不僅是補充正例(“XXX”應該被識別為該大眾車系),還可以提供負例(“XXX”不應該被識別為該大眾車系),這樣可以提高差異度的識別。
- 優化數據:修改大批以往的錯誤標注。
產品將具體的需求給到算法工程師,能避免無目的性、無針對性、無緊急程度的工作。
3、模型測試
測試同事(一般來說算法同事也會直接負責模型測試)將未被訓練過的數據在新的模型下做測試。
如果沒有后臺設計,測試結果只能由人工抽樣計算,抽樣計算繁瑣且效率較低。因此可以考慮由后臺計算。
一般來說模型測試至少需要關注兩個指標:
- 精確率:識別為正確的樣本數/識別出來的樣本數
- 召回率:識別為正確的樣本數/所有樣本中正確的數
舉個栗子:全班一共30名男生、20名女生。需要機器識別出男生的數量。本次機器一共識別出20名目標對象,其中18名為男性,2名為女性。則
- 精確率=18/(18+2)=0.9
- 召回率=18/30=0.6
再補充一個圖來解釋:
(來自mousever)
而且,模型的效果,需要在這兩個指標之間達到一個平衡。
測試同事需要關注特定領域內每個類別的指標,比如針對識別人臉的表情,里面有喜怒哀樂等分類,每一個分類對應的指標都是不一樣的。測試同事需要將測試的結果完善地反饋給算法同事,算法同事才能找準模型效果欠缺的原因。同時,測試同事將本次模型的指標結果反饋給產品,由產品評估是否滿足上線需求。
4、產品評估
“評估模型是否滿足上線需求”是產品必須關注的,一旦上線會影響到客戶的使用感。
因此,在模型上線之前,產品需反復驗證模型效果。為了用數據對比本模型和上一個模型的優劣,需要每次都記錄好指標數據。
假設本次模型主要是為了優化領域內其中一類的指標,在關注目的的同時,產品還需同時注意檢測其他類別的效果,以免漏洞產生。
三、產品工作補充
產品經理的工作,不止是產品評估——除了流程控制,質量評估,還有針對分類問題,由產品經理制定邊界;這是非常重要的,直接影響模型是否滿足市場需求。
產品制定分類規則:例如,目的是希望模型能夠識別紅色,那產品需要詳細描述“紅色”包含的顏色,暗紅色算紅色嗎?紫紅色算紅色嗎?紫紅色算是紅色還是紫色?這些非常細節的規則都需要產品設定。
如果分類細,那么針對某一類的數據就會少。如果分類大,那么一些有歧義的數據就會被放進該分類,也會影響模型效果。分類問題和策略問題道理是一樣的,都需要產品對需求了解得非常深刻。
以上內容,都只是AI行業一個小領域內可梳理的工作內容。
總之,針對剛剛入行的朋友,如果沒有算法基礎、沒有工程基礎,可考慮在流程、平臺等職責角度做過渡;在工作內容中不斷總結學習,往自己最終的方向目標不斷前進!
作者:黃釗hanniman,圖靈機器人-人才戰略官,前騰訊產品經理,5年AI實戰經驗,8年互聯網背景,微信公眾號/知乎/在行ID“hanniman”。
本文由 @Jasmine? 原創發布于人人都是產品經理。未經許可,禁止轉載。
題圖來自PEXELS,基于CC0協議
AI產品經理到底干什么的,現在還沒搞清楚。請指教。
受益,謝謝,打賞,哈哈
把數據分析做到專家級··· 66666
AI產品哪里都要黃老師呀,厲害 ??
高等數學、線性代數、統計分析,都不是強項,經常遇到瓶頸