如何從0到1快速搭建標(biāo)注系統(tǒng)
編輯導(dǎo)語(yǔ):在很多公司都會(huì)有標(biāo)注系統(tǒng),標(biāo)注系統(tǒng)屬于一種輔助型產(chǎn)品,我們對(duì)特定的對(duì)象進(jìn)行標(biāo)注;標(biāo)注系統(tǒng)在使用中要注重它的穩(wěn)定性等,在設(shè)計(jì)過(guò)程中也有很多注意的點(diǎn);本文作者分享了關(guān)于從0到1快速搭建標(biāo)注系統(tǒng)的方法,我們一起來(lái)看一下。
一、明確標(biāo)注目的
絕大部分的標(biāo)注系統(tǒng),是一種輔助型的產(chǎn)品;按照一定的標(biāo)注標(biāo)準(zhǔn),由人工完成標(biāo)注對(duì)象的標(biāo)注,為業(yè)務(wù)系統(tǒng)、模型系統(tǒng)、數(shù)據(jù)系統(tǒng)等提供支持服務(wù)。
目前,市面上有不少提供標(biāo)注服務(wù)的公司,但由于標(biāo)注會(huì)涉及數(shù)據(jù)敏感、標(biāo)注內(nèi)容歸屬、標(biāo)注質(zhì)量等問(wèn)題,不少有一定實(shí)力的公司,都會(huì)自行定制研發(fā)所需的產(chǎn)品,確保標(biāo)注流程和結(jié)果處于可控狀態(tài)。
在進(jìn)行標(biāo)注系統(tǒng)的搭建之前,我們需要明確標(biāo)注的目的所在:
- 標(biāo)注結(jié)果的使用方是誰(shuí)?是為業(yè)務(wù)服務(wù),還是模型訓(xùn)練使用?如果標(biāo)注結(jié)果滿足要求,可以為使用方帶來(lái)怎樣的效果?
- 是否有強(qiáng)烈的需求,要定制開發(fā)標(biāo)注系統(tǒng)?公司內(nèi)部其他標(biāo)注系統(tǒng)是否可滿足,用excel等工具進(jìn)行線下標(biāo)注是否可滿足,以及不滿足的點(diǎn)是什么?
- 標(biāo)注的類型是什么?是視頻、圖片、文字、音頻?是分類標(biāo)注(通常是可枚舉的分類,標(biāo)注對(duì)象屬于某一類或多累,比如新聞分類中的時(shí)政、財(cái)經(jīng)、體育、社會(huì)等),還是識(shí)別性標(biāo)注(通常是不可枚舉得,比如,要識(shí)別出一個(gè)視頻中人物的性別、年齡范圍、胖瘦等)。
二、標(biāo)注籌備
明確了為什么要開發(fā)標(biāo)注產(chǎn)品以后,接下來(lái)需要進(jìn)入標(biāo)注服務(wù)的籌劃中:
1)明確標(biāo)注標(biāo)準(zhǔn),標(biāo)注標(biāo)準(zhǔn)是標(biāo)注工作開展的前提;它不僅關(guān)系標(biāo)注人員手工標(biāo)注的效率、質(zhì)量,還影響標(biāo)注系統(tǒng)的搭建。這里對(duì)標(biāo)注標(biāo)準(zhǔn)的最重要的要求就是,標(biāo)注標(biāo)準(zhǔn)是準(zhǔn)確的、可執(zhí)行的。
2)籌建標(biāo)注團(tuán)隊(duì),標(biāo)注團(tuán)隊(duì)分為2類:
- 人工標(biāo)注團(tuán)隊(duì):他們是標(biāo)注系統(tǒng)的直接使用者,對(duì)整個(gè)標(biāo)注服務(wù)至關(guān)重要;因此,在籌劃標(biāo)注團(tuán)隊(duì)的時(shí)候,要選擇認(rèn)真仔細(xì)、有耐性的人員;在確定好標(biāo)注標(biāo)準(zhǔn)后,還要對(duì)人工標(biāo)注團(tuán)隊(duì)進(jìn)行培訓(xùn),并進(jìn)行充分的溝通討論,防止標(biāo)準(zhǔn)設(shè)定人員與人工標(biāo)注人員對(duì)于標(biāo)準(zhǔn)的理解有差,同時(shí)將標(biāo)注效率、標(biāo)注質(zhì)量作為人工標(biāo)注人員的考核依據(jù);此外,還應(yīng)該根據(jù)情況對(duì)人工標(biāo)注團(tuán)隊(duì),進(jìn)行標(biāo)注員與質(zhì)檢員的角色劃分,前者負(fù)責(zé)標(biāo)注工作,后者負(fù)責(zé)標(biāo)注結(jié)果的抽查工作。
- 產(chǎn)品開發(fā)團(tuán)隊(duì):與大部分的產(chǎn)品團(tuán)隊(duì)配置類似,產(chǎn)品、前后端、測(cè)試都不能少;最好可以把標(biāo)注系統(tǒng)的使用方也拉進(jìn)來(lái),比如業(yè)務(wù)方產(chǎn)品、模型算法工程師等,聽(tīng)取他們對(duì)于標(biāo)注標(biāo)準(zhǔn)、系統(tǒng)功能和流程的建議。
3)了解標(biāo)注需求量、預(yù)估日均標(biāo)注量;這里主要是來(lái)評(píng)估標(biāo)注量是否可以滿足需求量,以及標(biāo)注結(jié)果的數(shù)據(jù)存儲(chǔ)等。
三、標(biāo)注系統(tǒng)設(shè)計(jì)
一個(gè)基本的標(biāo)注系統(tǒng)流程,應(yīng)該包含以下幾個(gè)模塊:
按照箭頭所示的流程:
- 原始語(yǔ)料,進(jìn)入數(shù)據(jù)庫(kù)。
- 標(biāo)注系統(tǒng)從語(yǔ)料數(shù)據(jù)庫(kù)中,讀取未標(biāo)注的語(yǔ)料。
- 標(biāo)注完成的語(yǔ)料,進(jìn)入質(zhì)量評(píng)估模塊。
- 質(zhì)量評(píng)估合格后,進(jìn)入語(yǔ)料數(shù)據(jù)庫(kù),作為已標(biāo)注語(yǔ)料。
- 已標(biāo)注的語(yǔ)料,同步給使用方進(jìn)行使用。
下面對(duì)每一個(gè)模塊進(jìn)行詳解:
1. 語(yǔ)料數(shù)據(jù)模塊
有幾個(gè)功能:
- 語(yǔ)料數(shù)據(jù)模塊,用來(lái)儲(chǔ)存語(yǔ)料數(shù)據(jù);區(qū)分已標(biāo)注、未標(biāo)注。
- 與系統(tǒng)外部對(duì)接,同步原始語(yǔ)料,輸出已標(biāo)注語(yǔ)料。
2. 標(biāo)注系統(tǒng)模塊
有以下子模塊:
- 任務(wù)分配:這里需要有一個(gè)語(yǔ)料任務(wù)分配機(jī)制,用來(lái)將語(yǔ)料分配給不同的標(biāo)注員、質(zhì)檢員;這個(gè)分配機(jī)制可以是手動(dòng)的,也可以是自動(dòng)的,根據(jù)具體情況,來(lái)具體實(shí)現(xiàn)。
- 標(biāo)準(zhǔn)管理:是對(duì)標(biāo)注標(biāo)準(zhǔn)進(jìn)行管理的地方;主要包含2個(gè)功能:一是,對(duì)標(biāo)注標(biāo)準(zhǔn)文檔進(jìn)行管理和查閱,以方便標(biāo)注人員在標(biāo)注模棱兩可時(shí)快速獲取正確標(biāo)準(zhǔn)進(jìn)行標(biāo)注;二是,對(duì)標(biāo)注的類型、類別、識(shí)別性標(biāo)注輔助信息的配置功能,比如,針對(duì)新聞內(nèi)容的分類標(biāo)注,有時(shí)政、財(cái)經(jīng)、社會(huì)、體育四個(gè)類別,需要加第5個(gè)類別房產(chǎn),就需要用到標(biāo)準(zhǔn)管理模塊。
- 語(yǔ)料標(biāo)注:這是實(shí)現(xiàn)標(biāo)注人員的核心標(biāo)注界面。根據(jù)業(yè)務(wù)具體情況,可以是單條標(biāo)注,也可以是列表式標(biāo)注后統(tǒng)一提交等;需要說(shuō)明的是,標(biāo)注界面的展示信息要盡可能的完整,這樣標(biāo)注員才能盡可能準(zhǔn)確標(biāo)注。
- 業(yè)務(wù)管理:由于標(biāo)注系統(tǒng)不可能是服務(wù)于單一業(yè)務(wù)的,尤其是在大公司內(nèi)部,很多時(shí)候會(huì)接入很多標(biāo)注業(yè)務(wù);這個(gè)時(shí)候,就需要對(duì)業(yè)務(wù)進(jìn)行管理,確認(rèn)業(yè)務(wù)的標(biāo)注目的、類型、標(biāo)注量等,以及相關(guān)的申請(qǐng)、審核、權(quán)限工作。
3. 質(zhì)量評(píng)估模塊
我們對(duì)標(biāo)注人員的效果衡量,通常從數(shù)量和質(zhì)量?jī)蓚€(gè)維度。數(shù)量比如容易,就是簡(jiǎn)單的標(biāo)注數(shù)量統(tǒng)計(jì)。而質(zhì)量的評(píng)估會(huì)比較復(fù)雜,有兩種方式:
1)手動(dòng)評(píng)估:這里是由質(zhì)檢員對(duì)標(biāo)注員的標(biāo)注結(jié)果進(jìn)行抽查,來(lái)確定標(biāo)注員的標(biāo)注質(zhì)量;在抽查時(shí),系統(tǒng)應(yīng)提供給質(zhì)檢員對(duì)標(biāo)注員的數(shù)量抽取和比例抽取兩種基礎(chǔ)抽查手段。
2)自動(dòng)評(píng)估:由于面向的業(yè)務(wù)千差萬(wàn)別,自動(dòng)評(píng)估方式也應(yīng)該各不相同的;對(duì)于類別標(biāo)注,可以采取多人投票的形式,假設(shè)我們把1條語(yǔ)料,分配給A、B、C3個(gè)人進(jìn)行標(biāo)注,如果A和B標(biāo)注的結(jié)果一致,與C不一致,那么我們按照少數(shù)服從多數(shù)的原則,默認(rèn)A、B的結(jié)果是正確的,C是錯(cuò)誤的;通過(guò)這種隨機(jī)抽取一定量的語(yǔ)料,分配給多人投票來(lái)進(jìn)行自動(dòng)評(píng)估,在一定程度上,是可以比較好的正確評(píng)估標(biāo)注人員的質(zhì)量。
4. 其他模塊
- 數(shù)據(jù)統(tǒng)計(jì):用來(lái)統(tǒng)計(jì)標(biāo)注量、標(biāo)注質(zhì)量、標(biāo)注類別分布等情況;由于標(biāo)注團(tuán)隊(duì)的規(guī)模一般都比較大,在10人以上,且標(biāo)注團(tuán)隊(duì)關(guān)注的數(shù)據(jù),與產(chǎn)品人員不盡相同,這里也需要定制化的開發(fā)一些用于評(píng)估標(biāo)注員績(jī)效考核的模塊。
- 角色權(quán)限:對(duì)標(biāo)注系統(tǒng)進(jìn)行權(quán)限管理的地方。角色通常有管理員、質(zhì)檢員、標(biāo)注員等。
- 郵件報(bào)告:每日或每周通過(guò)郵件的形式,來(lái)獲取標(biāo)注情況的報(bào)告。
以上僅是標(biāo)注系統(tǒng)的簡(jiǎn)單架構(gòu)和說(shuō)明。在實(shí)際的標(biāo)注系統(tǒng)搭建過(guò)程中,還應(yīng)該根據(jù)實(shí)際情況,進(jìn)行調(diào)整。
四、實(shí)際上線使用
標(biāo)注系統(tǒng)上線以后,應(yīng)該重點(diǎn)關(guān)注:
- 標(biāo)注的質(zhì)量、效率情況:一方面,了解標(biāo)注人員的標(biāo)注情況;另一方面需要對(duì)標(biāo)注的成本、投入產(chǎn)出比有所預(yù)估,避免投入了大量標(biāo)注人力進(jìn)入,得到的結(jié)果卻是不盡人意。
- 對(duì)模型訓(xùn)練、業(yè)務(wù)的效果提升:標(biāo)注系統(tǒng)搭建的初衷就是來(lái)提升業(yè)務(wù)效果、提高模型的各項(xiàng)指標(biāo)。系統(tǒng)上線后,要緊緊關(guān)注系統(tǒng)的使用效果,要多向業(yè)務(wù)貼合,避免淪為徹徹底底的工具型產(chǎn)品。
五、值得注意的點(diǎn)
文章結(jié)尾的地方,我來(lái)談?wù)剺?biāo)注系統(tǒng)中值得注意的點(diǎn):
首先,要保證標(biāo)注標(biāo)準(zhǔn)的穩(wěn)定性;因?yàn)闃?biāo)注系統(tǒng)一旦上線開始運(yùn)行,如果標(biāo)注標(biāo)準(zhǔn)發(fā)生變更,前期的所有標(biāo)注工作,都有可能推倒重來(lái),造成人力的浪費(fèi)。
其次,保證標(biāo)注的質(zhì)量和效率;要把質(zhì)量和效率,作為標(biāo)注系統(tǒng)后面迭代的優(yōu)化目標(biāo),但很多時(shí)候標(biāo)注的質(zhì)量和效率,就好像是模型評(píng)判的準(zhǔn)確率、召回率一樣,難以雙高;這時(shí)候就要看業(yè)務(wù)的重點(diǎn)關(guān)注是什么了,是否對(duì)質(zhì)量非常敏感,是否可以犧牲部分質(zhì)量,來(lái)推進(jìn)標(biāo)注效率。
最后,標(biāo)注系統(tǒng)也可以推陳出新,與業(yè)務(wù)緊密結(jié)合;標(biāo)注屬于典型的輔助型工具產(chǎn)品,在很多公司都屬于一次開發(fā),日后就基本不再迭代優(yōu)化的產(chǎn)品;這樣其實(shí)是非常浪費(fèi)的,因?yàn)闃?biāo)注系統(tǒng)不僅有一個(gè)系統(tǒng)產(chǎn)品,還有海量的標(biāo)注語(yǔ)料和人力;在某些場(chǎng)景下,可以充分利用這些語(yǔ)料、人力,去開辟一些與業(yè)務(wù)結(jié)合的方向出來(lái)。
#專欄作家#
木葉飛飛,blog:muyefeifei.com。人人都是產(chǎn)品經(jīng)理專欄作家。
本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來(lái)自 Unsplash,基于 CC0 協(xié)議
的確是從0-1的思考,借鑒了,謝謝
碼住
111