談?wù)剶?shù)據(jù)標注那些事

5 評論 51734 瀏覽 120 收藏 9 分鐘

關(guān)于數(shù)據(jù)標注你了解多少?

一、什么是數(shù)據(jù)標注

首先談?wù)勈裁词菙?shù)據(jù)標注。數(shù)據(jù)標注有許多類型,如分類、畫框、注釋、標記等等,我們會在下面詳談。

要理解數(shù)據(jù)標注,得先理解AI其實是部分替代人的認知功能?;叵胍幌挛覀兪侨绾螌W(xué)習(xí)的,例如我們學(xué)習(xí)認識蘋果,那么就需要有人拿著一個蘋果到你面前告訴你,這是一個蘋果。然后以后你遇到了蘋果,你才知道這玩意兒叫做“蘋果”。

類比機器學(xué)習(xí),我們要教他認識一個蘋果,你直接給它一張?zhí)O果的圖片,它是完全不知道這是個啥玩意的。我們得先有蘋果的圖片,上面標注著“蘋果”兩個字,然后機器通過學(xué)習(xí)了大量的圖片中的特征,這時候再給機器任意一張?zhí)O果的圖片,它就能認出來了。

這邊可以順帶提一下訓(xùn)練集和測試集的概念。訓(xùn)練集和測試集都是標注過的數(shù)據(jù),還是以蘋果為例子,假設(shè)我們有1000張標注著“蘋果”的圖片,那么我們可以拿900漲作為訓(xùn)練集,100張作為測試集。機器從900張?zhí)O果的圖片中學(xué)習(xí)得到一個模型,然后我們將剩下的100張機器沒有見過的圖片去給它識別,然后我們就能夠得到這個模型的準確率了。想想我們上學(xué)的時候,考試的內(nèi)容總是不會和我們平時的作業(yè)一樣,也只有這樣才能測試出學(xué)習(xí)的真正效果,這樣就不難理解為什么要劃分一個測試集了。

我們知道機器學(xué)習(xí)分為有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)。無監(jiān)督學(xué)習(xí)的效果是不可控的,常常是被用來做探索性的實驗。而在實際產(chǎn)品應(yīng)用中,通常使用的是有監(jiān)督學(xué)習(xí)。有監(jiān)督的機器學(xué)習(xí)就需要有標注的數(shù)據(jù)來作為先驗經(jīng)驗。

在進行數(shù)據(jù)標注之前,我們首先要對數(shù)據(jù)進行清洗,得到符合我們要求的數(shù)據(jù)。數(shù)據(jù)的清洗包括去除無效的數(shù)據(jù)、整理成規(guī)整的格式等等。具體的數(shù)據(jù)要求可以和算法人員確認。

二、常見的幾種數(shù)據(jù)標注類型

1.分類標注:分類標注,就是我們常見的打標簽。一般是從既定的標簽中選擇數(shù)據(jù)對應(yīng)的標簽,是封閉集合。如下圖,一張圖就可以有很多分類/標簽:成人、女、黃種人、長發(fā)等。對于文字,可以標注主語、謂語、賓語,名詞動詞等。

適用:文本、圖像、語音、視頻

應(yīng)用:臉齡識別,情緒識別,性別識別

2.標框標注:機器視覺中的標框標注,很容易理解,就是框選要檢測的對象。如人臉識別,首先要先把人臉的位置確定下來。行人識別,如下圖。

適用:圖像

應(yīng)用:人臉識別,物品識別

3.區(qū)域標注:相比于標框標注,區(qū)域標注要求更加精確。邊緣可以是柔性的。如自動駕駛中的道路識別。

適用:圖像

應(yīng)用:自動駕駛

4.描點標注:一些對于特征要求細致的應(yīng)用中常常需要描點標注。人臉識別、骨骼識別等。

適用:圖像

應(yīng)用:人臉識別、骨骼識別

5.其他標注:標注的類型除了上面幾種常見,還有很多個性化的。根據(jù)不同的需求則需要不同的標注。如自動摘要,就需要標注文章的主要觀點,這時候的標注嚴格上就不屬于上面的任何一種了。(或則你把它歸為分類也是可以的,只是標注主要觀點就沒有這么客觀的標準,如果是標注蘋果估計大多數(shù)人標注的結(jié)果都差不多。)

三、數(shù)據(jù)標注的過程

1.標注標準的確定

確定好標準是保證數(shù)據(jù)質(zhì)量的關(guān)鍵一步,要保證有個可以參照的標準。一般可以:

  • 設(shè)置標注樣例、模版。例如顏色的標準比色卡。
  • 對于模棱兩可的數(shù)據(jù),設(shè)置統(tǒng)一處理方式,如可以棄用,或則統(tǒng)一標注。

參照的標準有時候還要考慮行業(yè)。以文本情感分析為例,“疤痕”一詞,在心理學(xué)行業(yè)中,可能是個負面詞,而在醫(yī)療行業(yè)則是一個中性詞。

2.標注形式的確定

標注形式一般由算法人員制定,例如某些文本標注,問句識別,只需要對句子進行0或1的標注。是問句就標1,不是問句就標0。

3.標注工具的選擇

標注的形式確定后,就是對標注工具的選擇了。一般也是由算法人員提供。大公司可能會內(nèi)部開發(fā)一個專門用于數(shù)據(jù)標注的可視化工具。如:

也有使用開源的數(shù)據(jù)標注工具的,如推薦 Github 上的小工具labelImg

四、數(shù)據(jù)標注產(chǎn)品的設(shè)計

結(jié)合自己做過一款數(shù)據(jù)標記工具談?wù)勗O(shè)計數(shù)據(jù)標注工具的幾個小技巧。

一個數(shù)據(jù)標注工具一般包含:

  1. 進度條:用來指示數(shù)據(jù)標注的進度。標注人員一般都是有任務(wù)量要求的,一方面方便標注人員查看進度,一方面方便統(tǒng)計。
  2. 標注主體:這個可以根據(jù)標注形式進行設(shè)計,原則上是越簡潔易用越好。根據(jù)標注所需要的注意力可以分為單個標注和多個標注的形式,可根據(jù)需求選擇。
  3. 數(shù)據(jù)導(dǎo)入導(dǎo)出功能:如果你的標注工具是直接數(shù)據(jù)對接到模型上的,可以不需要。
  4. 收藏功能:這個可能是沒有接觸過數(shù)據(jù)標注的不會想到。標注人員常常會出現(xiàn)的一種情況就是疲勞,或者是遇到了那種模棱兩可的數(shù)據(jù),則可以先收藏,等后面再標。
  5. 質(zhì)檢機制:在分發(fā)數(shù)據(jù)的時候,可以隨機分發(fā)一些已經(jīng)標注過的數(shù)據(jù),來檢測標注人員可靠性。

#專欄作家#

躚塵,人人都是產(chǎn)品經(jīng)理專欄作家。人工智能產(chǎn)品經(jīng)理,獨立音樂人,擅長需求分析、原型設(shè)計和項目管理。喜歡閱讀、思考、創(chuàng)作。網(wǎng)易云音樂主頁:躚塵。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自 unsplash,基于 CC0 協(xié)議

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 分類標注下面 的應(yīng)用,第一個應(yīng)該是年齡識別吧

    來自浙江 回復(fù)
  2. AI在進化,對數(shù)據(jù)的要求也越來越高。舉個例子,在自動駕駛領(lǐng)域,從前拉框就能滿足的需求,現(xiàn)在需要2D+3D點云融合標注,以提供更精細立體的數(shù)據(jù)。所以大膽設(shè)想一下,未來數(shù)據(jù)標注會增加什么方式? ?? 歡迎搜索Testin云測的AI數(shù)據(jù)服務(wù),探討交流

    來自北京 回復(fù)
  3. 數(shù)據(jù)標注,就找云琪海智,我找過這家公司,真的很效率。

    來自四川 回復(fù)
    1. 貴方還需要數(shù)據(jù)嗎?我們是數(shù)據(jù)標注公司,質(zhì)量保障。微信:18772118636

      來自湖北 回復(fù)
  4. 有個錯別字 → 那么我們可以拿900漲作為訓(xùn)練集,100張作為測試集。

    來自浙江 回復(fù)