人工智能的人工部分—數據標注(上)

11 評論 8426 瀏覽 20 收藏 9 分鐘

編輯導讀:人工智能的發展,是通過不斷學習已知樣本實現的。在監督學習的情況下,人工的數據標注是智能的前提與靈魂。本文作者對此進行了分析,希望對你有幫助。

當今社會人工智能領域蓬勃發展,各領域都在追求智能化,耳熟能詳的有智能駕駛、智能家居、智能語音、智能推薦等。人工智能是通過機器學習,大量學習已知樣本,有了預測能力之后再預測未知樣本,以達到智能化的效果,機器學習可分為監督學習和無監督學習,無監督學習的效果是不可控的,常常被用來做探索性的實驗。

在實際應用中,通常是有監督學習,有監督學習就需要做數據標注,所以智能的前提是人工,因為智能結果的輸出是多次人工樣本的輸入,可以說人工的數據標注是智能的前提與靈魂,沒有人工就沒有智能,有多少人工就有多少智能。

一、數據標注的分類

數據標注從難易程度方面可劃分為常識性標注與專業性標注。例如,地圖識別領域的標注多為常識性標注,標注道路、路牌、地圖等數據,語音識別標注也多為常識性標注。做該類型標注工作難點在于需要大量標注訓練樣本,因為應用場景多樣且復雜,對標注員無專業技能要求,主要是認真負責,任務完成效率快、質量高的即為好的標注員。

醫療診斷領域標注多為專業性標注,因為病種、癥狀的分類與標注需要有醫療專業知識的人才能做,招聘領域標注也屬于專業性標注,因為標注員需要熟知招聘業務、各崗位所需的知識技能,還需了解HR招人時的關注點,才能判斷簡歷是否符合職位的招聘要求。該類型的標注工作需要有招聘領域專業知識的標注員,或者稱為標注專家,標注工作的難點比較多,例如選撥培養合適的標注員、標注規則的界定、標注質量的控制等多方面。

數據標注從標注目的方面可劃分為評估型標注與樣本型標注。

評估型標注一般是為了評估模型的準確率,發現一些Badcase樣例,然后優化算法模型,該類型標注工作為了節約標注資源可控制標注數量,一般情況下標注千量級的數據,樣本具有統計意義即可,標注完成后需要統計正確率,以及錯誤樣例,該類型標注的重點是錯誤樣例的原因總結,分析每個Badcase出現的原因,并將原因歸納為不同的分類,有了原因分析方便算法同學分類型分批次的優化模型。

樣本型標注即為模型提供前期的訓練樣本,作為機器學習的輸入,該類型標注工作需要標注大量數據,一般情況下需要標注萬量級的數據。為了樣本的均衡性,標注樣本多是隨機抽取的,這樣做的優點是可在一定程度上避免樣本偏差,但缺點是要標注大量數據。如果是文本型樣本,有時可借助算法抽取一些高頻、高質量樣本進行標注,這樣可一定程度上減少標注工作量,但可能存在樣本偏差??傊畼颖拘蜆俗⑹莻€苦力活,業界有句話這么說的:如果你和一個人有仇,那么勸他去干標注吧。

數據標注從標注對象方面可劃分為文本標注、圖像標注、語言標注、視頻標注,從標注方式方面可劃分為分類標注、標框標注、描點標注,這些標注分類基本都屬于標注形式的差異,沒有較強的專業度,所以不做較多講述了。

二、數據標注規則的制定

常識性標注的規則比較簡單,標注一部分樣本即可總結出較通用的規則,但專業性標注的規則比較復雜,制定專業的標注規則需要遵循以下三原則:多維分析與綜合分析相結合,因子權重影響因素場景化,問題類型標簽化、結構化。以下是招聘領域簡歷與職位匹配度標注規則的指導思想,具體細節規則會在《數據標注(下)》中闡述。該標注規則比較符合標注規則制定的三原則。

第一,多維分析與綜合分析相結合。

簡歷與職位的匹配度影響因素肯定是多維的,不能只參考工作經歷或專業要求一個因子,或者某幾個因子,要多維分析,最終再給出綜合評分結果。當然簡歷與職位的匹配標注也不可能一上來就能給出綜合的評分,不能純感性的告訴標注員:你覺得是簡歷與職位非常匹配就給分,不匹配就不給分,這在邏輯上也不合理。所以要先給單一因子打分,然后參考每個因子的評分結果,最終再進行綜合分析給出評分結果。

第二,因子權重影響因素場景化。

前面有提到簡歷與職位匹配度評估需要給每個因子打分,那每個因子打分結束后怎么給出綜合評分呢,給每個因為賦予權重嗎?然后按權重計算總分?答案是否定的,我們要結合具體場景把所有因子進行歸類分析,比如設定一些重要因子,如果重要因子不匹配可能就直接不給分,比如工作經歷代表的是一個人的勝任力,如果該候選人不具備該崗位的勝任力,總分肯定是0分。還有一些因子雖然不是很重要,但會影響評分,有些因子時而重要時而不重要,比如年齡,HR想要1-3年經驗的行政專員,候選人40歲,該情況肯定會影響最終評分且很有可能總分是0分。所以把所有影響因子結合場景進行歸類分析是十分必要的。

第三,問題類型標簽化、結構化。

標注結果一般情況下會以分數的形式展示,ABCD,或者0123,然后一組數據沒有得到滿分是因為什么呢?哪里不匹配呢?所以前期制定標注規則時一定要把原因分析考慮進去,列出所有不匹配的原因,形成結構化的原因標簽,有利于最終分析Badcase的分類與占比,然后算法或者策略團隊在優化時可以優先解決占比高或影響惡劣的case。

數據標注是一項看似簡單實際卻十分復雜的工作,涉及標注分類、標注規則制定、標注原因分析、標注系統搭建、標注團隊管理等,尤其涉及到專業領域的標注則更困難,本篇主要介紹了標注分類、標注規則制定,細節的標注規則以及標注系統的搭建,標注團隊管理會在后續更新,希望大家持續關注,感謝閱讀!

 

本文由 @艷杰 原創發布于人人都是產品經理,未經作者許可,禁止轉載。

題圖來自Unsplash,基于CC0協議。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 你好可以方便問一下如何設計規劃一款標注工具呢

    來自重慶 回復
  2. 數據標注看似很難,但是根據作者的一篇文章理解了不少,作者的文章講的很詳細。

    來自云南 回復
    1. 感謝認可,感謝評論!

      來自北京 回復
  3. 數據標注這一個環節算是人工智能一個很大的突破了,繼續加油

    來自江西 回復
    1. 感謝鼓勵,共同加油!

      來自北京 回復
  4. 人工智能依托的還是人工,至于數據標注這一部分,一定也是需要人工的樣本的

    來自江西 回復
    1. 是的,有多少人工就有多少智能!

      來自北京 回復
  5. 又是人工智能,這個話題真的一直都在引發熱議,人工智能的技術也在不斷的升級

    來自江西 回復
    1. 是的,隨時隨地被人工智能監控著,哈哈!

      來自北京 回復
  6. 把所有影響因子結合場景進行歸類分析是十分必要的。

    來自廣東 回復
    1. 是的,這只是某些場景的舉例,還有很多細分場景。

      來自北京 回復