人工智能的人工部分—數據標注(上)
編輯導讀:人工智能的發展,是通過不斷學習已知樣本實現的。在監督學習的情況下,人工的數據標注是智能的前提與靈魂。本文作者對此進行了分析,希望對你有幫助。
當今社會人工智能領域蓬勃發展,各領域都在追求智能化,耳熟能詳的有智能駕駛、智能家居、智能語音、智能推薦等。人工智能是通過機器學習,大量學習已知樣本,有了預測能力之后再預測未知樣本,以達到智能化的效果,機器學習可分為監督學習和無監督學習,無監督學習的效果是不可控的,常常被用來做探索性的實驗。
在實際應用中,通常是有監督學習,有監督學習就需要做數據標注,所以智能的前提是人工,因為智能結果的輸出是多次人工樣本的輸入,可以說人工的數據標注是智能的前提與靈魂,沒有人工就沒有智能,有多少人工就有多少智能。
一、數據標注的分類
數據標注從難易程度方面可劃分為常識性標注與專業性標注。例如,地圖識別領域的標注多為常識性標注,標注道路、路牌、地圖等數據,語音識別標注也多為常識性標注。做該類型標注工作難點在于需要大量標注訓練樣本,因為應用場景多樣且復雜,對標注員無專業技能要求,主要是認真負責,任務完成效率快、質量高的即為好的標注員。
醫療診斷領域標注多為專業性標注,因為病種、癥狀的分類與標注需要有醫療專業知識的人才能做,招聘領域標注也屬于專業性標注,因為標注員需要熟知招聘業務、各崗位所需的知識技能,還需了解HR招人時的關注點,才能判斷簡歷是否符合職位的招聘要求。該類型的標注工作需要有招聘領域專業知識的標注員,或者稱為標注專家,標注工作的難點比較多,例如選撥培養合適的標注員、標注規則的界定、標注質量的控制等多方面。
數據標注從標注目的方面可劃分為評估型標注與樣本型標注。
評估型標注一般是為了評估模型的準確率,發現一些Badcase樣例,然后優化算法模型,該類型標注工作為了節約標注資源可控制標注數量,一般情況下標注千量級的數據,樣本具有統計意義即可,標注完成后需要統計正確率,以及錯誤樣例,該類型標注的重點是錯誤樣例的原因總結,分析每個Badcase出現的原因,并將原因歸納為不同的分類,有了原因分析方便算法同學分類型分批次的優化模型。
樣本型標注即為模型提供前期的訓練樣本,作為機器學習的輸入,該類型標注工作需要標注大量數據,一般情況下需要標注萬量級的數據。為了樣本的均衡性,標注樣本多是隨機抽取的,這樣做的優點是可在一定程度上避免樣本偏差,但缺點是要標注大量數據。如果是文本型樣本,有時可借助算法抽取一些高頻、高質量樣本進行標注,這樣可一定程度上減少標注工作量,但可能存在樣本偏差??傊畼颖拘蜆俗⑹莻€苦力活,業界有句話這么說的:如果你和一個人有仇,那么勸他去干標注吧。
數據標注從標注對象方面可劃分為文本標注、圖像標注、語言標注、視頻標注,從標注方式方面可劃分為分類標注、標框標注、描點標注,這些標注分類基本都屬于標注形式的差異,沒有較強的專業度,所以不做較多講述了。
二、數據標注規則的制定
常識性標注的規則比較簡單,標注一部分樣本即可總結出較通用的規則,但專業性標注的規則比較復雜,制定專業的標注規則需要遵循以下三原則:多維分析與綜合分析相結合,因子權重影響因素場景化,問題類型標簽化、結構化。以下是招聘領域簡歷與職位匹配度標注規則的指導思想,具體細節規則會在《數據標注(下)》中闡述。該標注規則比較符合標注規則制定的三原則。
第一,多維分析與綜合分析相結合。
簡歷與職位的匹配度影響因素肯定是多維的,不能只參考工作經歷或專業要求一個因子,或者某幾個因子,要多維分析,最終再給出綜合評分結果。當然簡歷與職位的匹配標注也不可能一上來就能給出綜合的評分,不能純感性的告訴標注員:你覺得是簡歷與職位非常匹配就給分,不匹配就不給分,這在邏輯上也不合理。所以要先給單一因子打分,然后參考每個因子的評分結果,最終再進行綜合分析給出評分結果。
第二,因子權重影響因素場景化。
前面有提到簡歷與職位匹配度評估需要給每個因子打分,那每個因子打分結束后怎么給出綜合評分呢,給每個因為賦予權重嗎?然后按權重計算總分?答案是否定的,我們要結合具體場景把所有因子進行歸類分析,比如設定一些重要因子,如果重要因子不匹配可能就直接不給分,比如工作經歷代表的是一個人的勝任力,如果該候選人不具備該崗位的勝任力,總分肯定是0分。還有一些因子雖然不是很重要,但會影響評分,有些因子時而重要時而不重要,比如年齡,HR想要1-3年經驗的行政專員,候選人40歲,該情況肯定會影響最終評分且很有可能總分是0分。所以把所有影響因子結合場景進行歸類分析是十分必要的。
第三,問題類型標簽化、結構化。
標注結果一般情況下會以分數的形式展示,ABCD,或者0123,然后一組數據沒有得到滿分是因為什么呢?哪里不匹配呢?所以前期制定標注規則時一定要把原因分析考慮進去,列出所有不匹配的原因,形成結構化的原因標簽,有利于最終分析Badcase的分類與占比,然后算法或者策略團隊在優化時可以優先解決占比高或影響惡劣的case。
數據標注是一項看似簡單實際卻十分復雜的工作,涉及標注分類、標注規則制定、標注原因分析、標注系統搭建、標注團隊管理等,尤其涉及到專業領域的標注則更困難,本篇主要介紹了標注分類、標注規則制定,細節的標注規則以及標注系統的搭建,標注團隊管理會在后續更新,希望大家持續關注,感謝閱讀!
本文由 @艷杰 原創發布于人人都是產品經理,未經作者許可,禁止轉載。
題圖來自Unsplash,基于CC0協議。
你好可以方便問一下如何設計規劃一款標注工具呢
數據標注看似很難,但是根據作者的一篇文章理解了不少,作者的文章講的很詳細。
感謝認可,感謝評論!
數據標注這一個環節算是人工智能一個很大的突破了,繼續加油
感謝鼓勵,共同加油!
人工智能依托的還是人工,至于數據標注這一部分,一定也是需要人工的樣本的
是的,有多少人工就有多少智能!
又是人工智能,這個話題真的一直都在引發熱議,人工智能的技術也在不斷的升級
是的,隨時隨地被人工智能監控著,哈哈!
把所有影響因子結合場景進行歸類分析是十分必要的。
是的,這只是某些場景的舉例,還有很多細分場景。