AI產(chǎn)品經(jīng)理之?dāng)?shù)據(jù)標(biāo)注
前兩篇筆者分別為大家介紹了AI產(chǎn)品經(jīng)理需要了解的概率論通識(shí)、線性代數(shù)通識(shí)、微積分通識(shí),本篇文章中,筆者將繼續(xù)為你介紹AI產(chǎn)品經(jīng)理需要了解的數(shù)據(jù)標(biāo)注,供大家一參考學(xué)習(xí)。
前幾天參加京東的AI技術(shù)沙龍,在提問(wèn)環(huán)節(jié),有個(gè)小伙說(shuō):
“我是做銷售的,剛才您講的我都沒聽懂,我就知道,現(xiàn)在AI是風(fēng)口,只要做AI相關(guān)的就能掙錢,您能說(shuō)幾個(gè)現(xiàn)在我們這類人能做到嗎?能掙錢就行!”
臺(tái)上技術(shù)出身的老師自然一時(shí)語(yǔ)塞。小伙說(shuō)的沒錯(cuò),百團(tuán)大戰(zhàn)的時(shí)候確實(shí)一批刷單公司賺得盆滿缽滿。但是這些投機(jī)取巧注定不能長(zhǎng)遠(yuǎn)。
讓更多人卷進(jìn)這次AI浪潮的可能就是數(shù)據(jù)標(biāo)注了,All in AI的百度擁有大量的標(biāo)注業(yè)務(wù),大部分河南標(biāo)注工廠用的是百度的標(biāo)注工具,干的是百度的活。開始的時(shí)候標(biāo)注的利潤(rùn)空間可以達(dá)到60%—70%。有些企業(yè)盲目擴(kuò)張,一下子招了幾百人;但是陸奇離開后,百度需求減少。準(zhǔn)確率又普遍提高至95%-96%,活難干了。這些工廠只會(huì)百度的標(biāo)注工具,很難接別家的業(yè)務(wù),因此死了一批。
現(xiàn)在來(lái)看標(biāo)注行業(yè)是一個(gè)苦行業(yè),“如果你和誰(shuí)有仇,就勸他干標(biāo)注吧?!边@是標(biāo)注圈有名的段子。干標(biāo)注就像將水倒進(jìn)一個(gè)水桶里,每拉一個(gè)框就是添一碗水。目前,誰(shuí)也不知道還能添多久,只有水溢出來(lái)時(shí),才知道。
數(shù)據(jù)是AI公司的必需品。數(shù)據(jù)對(duì)于AI模型的重要性尤為重要,AI建模沒有門檻,數(shù)據(jù)才是門檻。現(xiàn)階段的人工智能是簡(jiǎn)單的認(rèn)知智能。分類器的構(gòu)造是個(gè)數(shù)學(xué)問(wèn)題,就是由數(shù)據(jù)堆起來(lái)的?;蛘哒f(shuō)深度學(xué)習(xí)本質(zhì)上是個(gè)數(shù)學(xué)問(wèn)題,是由大量的樣本空間數(shù)據(jù)反向構(gòu)造分類器的系數(shù)空間的過(guò)程。
數(shù)據(jù)標(biāo)注模型
數(shù)據(jù)標(biāo)注業(yè)務(wù)的配置是一個(gè)復(fù)雜的數(shù)學(xué)模型。比如,有些任務(wù)需要串并聯(lián)的工作流,并聯(lián)的工作流是多人協(xié)同的工作。串聯(lián)的工作流是后一個(gè)結(jié)果是基于前一個(gè)結(jié)果進(jìn)行處理的,串并聯(lián)的工作流需要平臺(tái)來(lái)實(shí)現(xiàn)業(yè)務(wù)工作流的配置。比如一些NLP型的文本標(biāo)注作業(yè),需要多個(gè)人來(lái)標(biāo),最后N選一或者投票。串并聯(lián)配置涉及到底層數(shù)據(jù)流的分發(fā)等?;蛘哒f(shuō)更像是一個(gè)流水線作業(yè)流程。
不斷地用標(biāo)注后的數(shù)據(jù)去訓(xùn)練模型,不斷調(diào)整模型參數(shù),得到指標(biāo)數(shù)值更高的模型。
數(shù)據(jù)的質(zhì)量直接會(huì)影響到模型的質(zhì)量,因此數(shù)據(jù)標(biāo)注流程設(shè)計(jì)和監(jiān)督糾錯(cuò)就顯得異常重要。
一般來(lái)說(shuō),數(shù)據(jù)標(biāo)注部分可以有三個(gè)角色:
- 數(shù)據(jù)標(biāo)注員:標(biāo)注員負(fù)責(zé)標(biāo)記數(shù)據(jù)。(文本、圖像、視頻)
- 數(shù)據(jù)審核員:審核員負(fù)責(zé)審核被標(biāo)記數(shù)據(jù)的質(zhì)量。(抽檢)
- 標(biāo)注管理員:管理人員、發(fā)放任務(wù)、跟進(jìn)流程。
只有在數(shù)據(jù)被審核員審核通過(guò)后,這批數(shù)據(jù)才能入庫(kù)使用。
一般眾包數(shù)據(jù)標(biāo)記流程
- 任務(wù)分配:一般數(shù)據(jù)分配由后臺(tái)自動(dòng)分發(fā),根據(jù)用戶選擇標(biāo)注類型每次分發(fā)幾條內(nèi)容,標(biāo)注完成后再次分發(fā)。
- 復(fù)核入庫(kù):一般一條任務(wù)會(huì)分配給大于三個(gè)人的基數(shù)人員完成,根據(jù)少數(shù)服從多數(shù)原則確定該條數(shù)據(jù)的最終標(biāo)簽。
- 質(zhì)量驗(yàn)收:一般會(huì)根據(jù)用戶標(biāo)注總數(shù)量和入庫(kù)數(shù)量計(jì)算該用戶的標(biāo)注質(zhì)量,和計(jì)算有效標(biāo)注數(shù)量,質(zhì)量高的和質(zhì)量低的薪酬計(jì)算方法會(huì)有差別,以此來(lái)淘汰不能完成高質(zhì)量標(biāo)注的人員。
數(shù)據(jù)標(biāo)注類型
圖像標(biāo)注-線標(biāo)注
根據(jù)需求標(biāo)注檢測(cè)對(duì)象相對(duì)應(yīng)的線型位置,例如:車道線。
圖像標(biāo)注-邊框標(biāo)注
標(biāo)注檢測(cè)對(duì)象相對(duì)應(yīng)的區(qū)域,例如:汽車/行人等各種物體。
圖像標(biāo)注-3D邊框標(biāo)注
將圖像中待檢測(cè)物體以立體形式標(biāo)注,例如汽車檢測(cè)。
圖像標(biāo)注-語(yǔ)義分隔
根據(jù)檢測(cè)區(qū)域不同,將圖像標(biāo)注為不同的像素,例如來(lái)自汽車拍攝的圖像。
圖像標(biāo)注-多邊形標(biāo)注
根據(jù)需求標(biāo)注檢測(cè)對(duì)象的形狀,例如:標(biāo)注圖像中的汽車輪廓(示例圖)或標(biāo)記污損邊界。
圖像標(biāo)注-點(diǎn)標(biāo)注
根據(jù)需求標(biāo)注檢測(cè)對(duì)象參考點(diǎn)的像素坐標(biāo),或者圖像中的關(guān)鍵點(diǎn)標(biāo)記,如人臉。
圖像標(biāo)注-3D點(diǎn)云標(biāo)注
在3D空間中,標(biāo)注點(diǎn)云數(shù)據(jù)中指定的檢測(cè)對(duì)象,如汽車、行車道等。
視頻標(biāo)注-跟蹤標(biāo)注
在視頻或者連續(xù)的圖像中跟蹤標(biāo)注檢測(cè)對(duì)象,形成有ID關(guān)聯(lián)的運(yùn)動(dòng)軌跡。
文本標(biāo)注-中英文語(yǔ)音轉(zhuǎn)寫與校對(duì)
英文語(yǔ)音轉(zhuǎn)中文文本,或中文文本轉(zhuǎn)英文語(yǔ)音。
文本標(biāo)注
實(shí)體命名,標(biāo)注文本中的實(shí)體。
語(yǔ)音標(biāo)注-客服語(yǔ)音標(biāo)注
外呼機(jī)器人進(jìn)行外呼記錄語(yǔ)音標(biāo)注呼叫成功或者失敗,從而訓(xùn)練話術(shù)。
標(biāo)注流程
- 需求確認(rèn):對(duì)標(biāo)注任務(wù)需求確認(rèn),標(biāo)注數(shù)據(jù)集準(zhǔn)備完成,規(guī)范標(biāo)注需求,指定標(biāo)注模型。
- 人員篩選:確定標(biāo)注人員及人員角色
- 人員培訓(xùn):針對(duì)不同角色培訓(xùn)標(biāo)注規(guī)范和標(biāo)注標(biāo)準(zhǔn)
- 開始試標(biāo):先標(biāo)注少量數(shù)據(jù),試用標(biāo)注數(shù)據(jù),調(diào)整標(biāo)注流程,使得效率最優(yōu)。
- 正式標(biāo)注:完成整體標(biāo)注任務(wù)。導(dǎo)出數(shù)據(jù)。
總結(jié)
快速、高效的進(jìn)行數(shù)據(jù)標(biāo)注,是機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的基礎(chǔ),現(xiàn)在一些標(biāo)注工具通過(guò)深度學(xué)習(xí)模型和主動(dòng)學(xué)習(xí)技術(shù),通過(guò)NLP模型來(lái)提高標(biāo)注效率,集數(shù)據(jù)標(biāo)注、數(shù)據(jù)管理、模型訓(xùn)練和模型服務(wù)于一體,使數(shù)據(jù)標(biāo)注更加輕松、更高效。離AI最近的重復(fù)復(fù)雜的工作,是首先會(huì)被機(jī)器取代的。
#相關(guān)閱讀#
《AI產(chǎn)品經(jīng)理需要了解的概率論通識(shí):4個(gè)概念3個(gè)問(wèn)題》
《AI產(chǎn)品經(jīng)理需要了解的線性代數(shù)通識(shí)》
《AI產(chǎn)品經(jīng)理需要了解的微積分通識(shí)》
#專欄作家#
老張,人人都是產(chǎn)品經(jīng)理專欄作家。AI產(chǎn)品經(jīng)理,專注于自然語(yǔ)言處理和圖像識(shí)別領(lǐng)域?,F(xiàn)智能保險(xiǎn)創(chuàng)業(yè)公司合伙人,希望與人工智能領(lǐng)域創(chuàng)業(yè)者多多交流。
本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載
題圖來(lái)自 Unsplash,基于 CC0 協(xié)議
講的不錯(cuò)!
請(qǐng)問(wèn)下文章里的操作用的是那個(gè)系統(tǒng)?