AI產品經理如何做好數據準備工作

2 評論 8056 瀏覽 20 收藏 7 分鐘

編輯導語:在所有產品類型中,AI產品是市場上較為吃香的。在AI產品領域,數據的準備工作是開始正式工作之前同樣重要的一部分。那么,該如何做好數據準備工作呢?

所有的產品類型中,估計AI產品是最吃數據的了,要訓練模型必須喂養大量的數據,2020 年 6 月 9 日,一款顱內腫瘤核磁共振影像輔助診斷軟件獲得了中國藥監局審批,拿到了影像輔助診斷領域的首張 III 類醫療器械證。

這套人工智能軟件對腦腫瘤的診斷準確率超過 90%,對其中常見類型的診斷準確率達到 96%。訓練這款軟件的算法模型喂養了上百萬份影像病例,海量數據、強大算力以及高分辨率,讓人工智能歸納出來的一套新經驗,使得它在影像診斷領域取得突破的基礎。

可以這么說,在AI產品領域,數據、算法、算力三分天下,同樣重要,數據的準備工作是開始產品設計和開發的必要的前期工作。

數據準備工作主要包括兩個部分,第一是數據收集,第二是數據清洗。

一、數據收集

數據收集顧名思義,就是收集訓練所需的數據,比如說,我要做一個人臉識別的模型,那么肯定是要收集人臉數據,我要做個對話機器人系統,肯定要收集語料數據,我要做個有無佩戴安全帽識別,肯定要收集人帶安全帽的數據。

我要做個寵物狗的品類識別模型,就要收集各種狗的圖像數據,并分類存儲。

數據收集簡而言之,就是把數據分類存儲好的過程,就像是我們做法,先去買菜的過程,并把菜分類存儲好的過程。

目前,數據收集主要有三個來源,分別是數據服務商采購、公開網絡收集、內部數據。

數據提供商提供的數據一般質量都比較好,數據比較大??梢灾苯幽脕碜瞿P陀柧毠ぷ?。只不過這類數據一般價格比較高。

而且這類數據的類型一遍是通用型,對于一些小品類,垂直領域的的數據服務商一般沒有。例如下面這些,是一家外部提供商提供的數據。

網絡公開的數據比較好理解,就比如訓練提問意圖,需要大量的提問意圖的短句,這時候可以從知乎爬取。因為知乎是個問答平臺。

第三種內部數據,也比較好理解,如果有內部數據肯定是先用內部數據,他的獲取成本最低,還有就是一些小眾垂直領域,外部無法獲取也只能從內部獲取。

例如疫情初期,北京腫瘤醫院新冠肺炎智能識別是基于5000多個病例的 CT 影像樣本數據,學習訓練樣本的病灶紋理,研發了全新的AI算法模型,可在20秒內快速完成新冠肺炎影像的分析,分析結果準確率達96%。這些CT影像就屬于內部數據。

二、數據清洗

數據收集完成之后還不能直接拿來用,需要做數據清洗,把這些數據變成可用的數據。這就好比從菜市場買完菜之后做洗菜和切菜的過程。

數據清洗主要是清洗三類數據:

數據缺失解決辦法大體分為兩種,第一種是直接刪除,第二種是做填補。

數據格式不統一比較好解決,直接做歸一化處理就好。

存在異常值的情況,只需要找到異常值,并剔除掉就好。針對不同的數據的異常值找到方法也不盡相同。例如某學校3萬人體檢,手工錄入每個人體重,可以用3σ定律檢驗可找出錄入錯誤數據。

三、總結

數據收集和數據清洗工作在整個建模過程中很重要,數據的好壞直接影響最后模型的準確性。但是數據收集和數據清洗是個苦活,過程繁瑣并且技術含量不高,需要AI產品經理和算法工程師一起完成,這塊會花費比較多的時間,一定要有耐心和細心。

#專欄作家#

老張,人人都是產品經理專欄作家。AI產品經理,專注于自然語言處理和圖像識別領域?,F智能保險創業公司合伙人,希望與人工智能領域創業者多多交流。

本文原創發布于人人都是產品經理,未經許可,禁止轉載

題圖來自 Unsplash,基于 CC0 協議

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 博主能不能稍微加點深度, 再寫一些. 感謝

    來自廣東 回復
    1. 好,我再加把勁

      來自北京 回復