數(shù)據(jù)標注師:站在了人工智能風口,卻為5K月薪掙扎?
編輯導語:數(shù)據(jù)標注師,站在了人工智能的風口,為什么卻還在為5K月薪掙扎呢?讓我們帶著好奇與思考,一起來看一下這篇文章。
AI正在一步步趨于成熟,但標注師群體卻在一步步遠離舞臺……
上個月,特斯拉首席執(zhí)行官馬斯克表示,將在明年推出“Tesla Bot”人形機器人原型,以從事人們不喜歡做的危險、重復性或枯燥的工作。該計劃一經(jīng)發(fā)布便引起了廣泛討論,國外媒體的焦點,放在了安全性上。而在國內(nèi),隱藏在人工智能產(chǎn)業(yè)鏈中一群人“小人物”卻開始浮出水面,并被輿論聚焦。
他們是AI行業(yè)的賦能者,是人工智能背后的“人工”。在AI繁榮的背后,有億兆級的數(shù)據(jù)信息,在流水作業(yè)中,這些數(shù)據(jù)最終都會傳遞到名為“標注師們”的電腦前,被他們手動去“智能化”。
他們扮演了“老師”的角色——手把手地傳授現(xiàn)實世界中的表情和動作,然后等著AI這位“學生”成長、離開,或許有一天這些“AI學生”將取代“老師”的位置。如今,隨著數(shù)據(jù)標注行業(yè)迭代升級,這些數(shù)據(jù)標注師或許很快就會離開舞臺……
一、入行、扎根
上海一座創(chuàng)意園區(qū)內(nèi),主管員劉夢緣(化名)正坐在自己的小隔間里,等著手下的標注師們發(fā)來成型的文檔。
外面的工位上坐滿了員工,他們一個個都把腦袋湊近屏幕,脖子還向前探著。其中的一位員工正在做著“描點標注”,將視頻按幀截取并放大,細致對臉部特征、骨骼彎曲點進行標注,由于截取的畫面像素低,大部分員工總是習慣性地一邊滑動鼠標滾輪一邊嘆氣。
員工們操作的“描點標注”是人臉識別前重要的步驟之一,除去“描點標注”,還有分類標注、標框標注等。AI不是生來就能識別人的眼耳口鼻,它需要通過標注師繪制的人臉關(guān)鍵點,來建立對五官輪廓的認知。在此基礎(chǔ)上,AI才可通過這些點構(gòu)成的輪廓特征,完成一系列識別工作。
當你“刷臉”解鎖手機、完成支付,當你進入火車站,檢票設(shè)備掃描面部時,都是在使用人臉識別的技術(shù)。而助力這項技術(shù)的,正是數(shù)據(jù)標注師們。
在劉夢緣所在的公司,標注師們用細密、起伏的鼠標點擊聲制造出成千上萬個關(guān)鍵點。這項工作很“初級”,卻也很艱難,劉夢緣在屋里偶爾會出來看一眼,然后見怪不怪地回到隔間,“我以前也是這么過來的,正常?!?/p>
她是從2018年入行的,從機械地錄入(數(shù)據(jù)清洗)工開始,幾個月后才正式接觸數(shù)據(jù)標注工作。她的第一個任務(wù)是給圖像中的人物打標簽:年齡、性別、人種、頭發(fā)、表情等,以供AI學習。而在見識了海量人物標簽后,AI就像煉就了火眼金睛,“一眼”認出人的特征來。
“當時稅后5千多的工資,主要是門檻不高,其實說到底就是互聯(lián)網(wǎng)民工的角色吧”。當時的劉夢緣大專畢業(yè)后幾次應聘都不順,灰心喪氣之際她與“標注師”不期而遇,女生特有的細心和韌勁讓她一路堅持下來,直到現(xiàn)在。
也正是在劉夢緣入行的2018年,數(shù)據(jù)標注公司的風口來臨。根據(jù)前瞻產(chǎn)業(yè)研究院統(tǒng)計,2017年數(shù)據(jù)標注相關(guān)融資事件達到9起,到2021年4月,共有18家公司獲得融資,投融資事件39起。
來源:前瞻產(chǎn)業(yè)研究院
跟著這一波潮流發(fā)展的是,許多數(shù)據(jù)服務(wù)公司也作為乙方進入到日益擴大的市場,為百度、阿里等大型互聯(lián)網(wǎng)公司,以及部分AI獨角獸企業(yè)提供服務(wù)。
圖片來源:人社部
2020年4月26日,人力資源與社會保障部發(fā)文正式宣布,“人工智能訓練師”正式成為新職業(yè),并納入國家職業(yè)分類目錄。預計到2022年,國內(nèi)外相關(guān)從業(yè)人員有望達到500萬。
行業(yè)向上,但“老師”們依舊用密集、艱辛的勞動輔助AI一步步走向成熟。光鮮的AI科技發(fā)布會在臺前風光無限,可標注師們的生活似乎變得有些困難了。
“說是沒技術(shù)含量,精度要求在那里,很容易犯錯,”劉夢緣看著現(xiàn)在的手下的員工說道。每張圖片要標記的點位繁雜,稍有偏離就會產(chǎn)生錯誤。一張圖有錯,會影響到整個數(shù)據(jù)包數(shù)據(jù),然后就是“回爐重造”。
除了精度,疲倦是標注師最大的敵人?!斑@行干久了之后,我清楚地知道客戶要通過我們實現(xiàn)什么——就是把人腦當電腦用”,劉夢緣笑著說道。
大公司會用軟件監(jiān)控標注師的疲勞程度,也算是一種人性化的體現(xiàn),“但小公司本來就是接人家剩下來的活,時間緊任務(wù)急,只能拼著命熬,”正是如此,劉夢緣的團隊里常年備著成箱的紅牛和西洋參含片。
AI快速發(fā)展的背后,一批批“老師”換血,流動率相當高?!白鑫谋緲俗⒌娜藛T,現(xiàn)在越來越少,圖像標注的30%的流動率,語音、視頻常年都是對半開。而且現(xiàn)在的95后、00后愿意做的人少了,一般呆過三個月就不愿意繼續(xù)干了”。
3年時間過去了,劉夢緣不斷和老同事告別。但她從枯燥無味的工作中堅持了下來,她記不得自己標注了多少圖,只覺得自己是踏上了人工智能的大潮。
對那些新晉的員工,劉夢緣也是如此描述,“我們是走在智能時代前面的一群人”。
二、巨頭來了
行業(yè)的分水嶺出現(xiàn)在2019年初:幾大互聯(lián)網(wǎng)巨頭紛紛意識到數(shù)據(jù)的重要性,并著手建立自己的“數(shù)據(jù)工廠”。
據(jù)媒體報道,截至今年3月,百度山西人工智能數(shù)據(jù)產(chǎn)業(yè)基地中,就擁有超過3000位標注師,主要涉及自動駕駛、人臉識別等內(nèi)容標注,其中86%的員工為90后;字節(jié)跳動在北京、天津、濟南、武漢各地,也招募了4萬名數(shù)據(jù)標注師;騰訊更是直接把平臺放到了線上,讓標注師變成了一種“全民兼職”,稱為“眾包”。
巨頭的加入一方面是為了市場和成本,另一方面也是出于數(shù)據(jù)安全考慮,所以在內(nèi)部搭建專門的標注團隊顯然是一個好選擇。但是,“模型的訓練和數(shù)據(jù)需求是周期性的,任務(wù)不持續(xù),今天有活、明天沒活,人員容易流失,管理成本很高”,劉夢緣能理解大廠擺出“眾包”的原因,“我讓手下的人去試過平臺的兼職標注,單個標注幾分錢,一個月的收入在2000元左右,比起讓外包來做,省了一半還多?!?/p>
“大廠出手之后,市場最后拼的就是成本”,那段時間劉夢緣所在公司業(yè)績下滑了40%,而且做出的標注數(shù)據(jù)質(zhì)量也差很多。
圖片來源:Boss直聘
據(jù)懂懂筆記了解,2018-2020年數(shù)據(jù)標注師行業(yè)平均薪資為5000-6000元,如果晉升為項目主管或者更高級別的項目總監(jiān)后,月薪才能向5位數(shù)靠攏。而這一薪資標準到了2021年, 在一些求生的外包“小廠”內(nèi),不升反降。
圖片來源:職友集
巨頭涌入,薪資縮水的“大趨勢”下,能窺探出標注師行業(yè)的“小趨勢”:許多數(shù)據(jù)標注就像被人精心種下的水稻,還未到秋收季節(jié)稻穗就掉進了土里。
年初,劉夢緣單獨接了一個“私單”,賺了2萬元。
那是一個大廠“丟”出來的單子,做無人駕駛的數(shù)據(jù)標注工作,由于公司手頭上的人員都撲在另一個項目上,她拉了之前的一些老同事和10個兼職學生,干了個“包工頭”的活。
已經(jīng)快1年沒有親自上陣標注文件的劉夢緣,只能硬著頭皮和所有人一樣移著鼠標,頭頂、脖子、肘部、手腕、膝蓋……都要一個個地標出來。整整一周,一群人完成了幾萬個點位的標注——他們看似在科技的潮頭,干的卻是苦力活。
本以為這單生意之后,可以繼續(xù)接小單,可好景不長?!?月份開始,很多新團隊出現(xiàn),壓價特別狠,原來是標注的報價按毛算,現(xiàn)在報價單上都出現(xiàn)幾分錢了”。
數(shù)據(jù)標注行業(yè)有一套分工流程:巨頭把任務(wù)交給中游的數(shù)據(jù)標注公司,再由中游包給下游的小公司、小作坊,有的小作坊還會進一步眾包給“散戶”:比如兼職學生。一單生意幾經(jīng)轉(zhuǎn)手,就造成了行業(yè)眾包中介層疊越來越嚴重,利潤所剩無幾。
“AI 肯定是未來的大趨勢,但我們這些小公司很迷茫,聽說很多公司都不干了?!眲艟壉鞠胫八絾巍弊龅貌畈欢嗔酥缶统鰜韱胃桑蛇@樣的行業(yè)情況下,她能感受到的只有壓力。
三、困境、掙扎
盡管目前的情況不樂觀,劉夢緣依舊相信,數(shù)據(jù)標注行業(yè)最終會大浪淘沙,而他們,是走到最后的那一批。
從好的局面來看,下游市場陷入混戰(zhàn)的同時,上游的 AI 市場從未停止過發(fā)展,AI正在成為人們進入這個社會的“入口”,這讓劉夢緣和其他從業(yè)者們感到充滿希望。
但行業(yè)也顯露出嚴峻的一面,數(shù)據(jù)標注在迭代:大模型慢慢替代標注師,一些門檻更高、學科更細分的領(lǐng)域正露出頭角。比如,醫(yī)療健康領(lǐng)域需要對病理切片等進行標注,以腰椎間盤突出的 CT 片為例,標注員必須準確識別并標注出間盤的輪廓。不過,很多醫(yī)療專家并沒有時間和精力做數(shù)據(jù)標注,而這類工作又是普通的標注師無法勝任的,通常需要請醫(yī)生或醫(yī)學院的學生來做,結(jié)果就是成本居高不下,這些專業(yè)人員的成本是普通標注員的10倍。
像劉夢緣之前那樣手把手教人工智能學習的方式,被稱為“有監(jiān)督”的機器學習。但當人工智能被逐漸成熟,它自身的識別能力與模型擬合準確度將不斷提高,進入人機協(xié)作模式。直至人工智能會在模型的注準確度與效率上完全超過人類,此時它便要離開人工標注,進入無監(jiān)督機器學習。
理論上說,每一個垂直場景隨著技術(shù)發(fā)展,人工智能都有可能進入無監(jiān)督學習狀態(tài)。AI的核心在于預測,AI的下一個變革是無監(jiān)督學習、常識學習。也就是說,“老師”們正在努力讓 AI 不依賴人類訓練,自己去觀察世界是如何運轉(zhuǎn)的,并學會預測,最終AI要甩掉“老師”。
但劉夢緣并沒有很強的危機感:“我?guī)ьI(lǐng)我們的人在做一件最有意義的事,在將每一個個體的智慧轉(zhuǎn)化為 AI。我能保證,如果未來 AI 取代人類,他們也會是最后一批被取代的?!?/p>
為什么是最后一批?“因為總會有一個新的行業(yè)需要引入 AI ,需要我們(標注師)為他們來做數(shù)據(jù)準備?!?/p>
劉夢緣一直認為:“最大的一塊市場是審核”。隨著 AI 技術(shù)的發(fā)展,早年一些基本的標注工作正被逐漸被淘汰。以自動駕駛模型為例:以前靠人工來識別車、行人,如今則是由機器先標出來,然后人再去檢查標注是否正確。
她考慮過自己的職業(yè)規(guī)劃:“非常想進大廠,可是簡歷不夠漂亮,門檻都邁不進去”。
互聯(lián)網(wǎng)大廠對于數(shù)據(jù)的重視,最直接的反應就是薪資,尤其是管理崗,優(yōu)厚的薪資福利讓很多人都羨慕不已,劉夢緣也是其中一員。除此之外,她還考慮過自己單干去開個小公司,然后以被收購的方式進入大廠的管理體系。
“不過,那都是非常遙遠的未來,還是抓緊現(xiàn)在吧。”如今,劉夢緣已經(jīng)升級為公司主管,名片上的職位是數(shù)據(jù)總監(jiān)。她也不再像剛?cè)肼殨r那樣累了,“每天工作結(jié)束,累得不行,還要在內(nèi)部對比誰今天完成的任務(wù)多?!?/p>
當然,角色的轉(zhuǎn)換之后劉夢緣會思考更多,“或許下一個風口明年就來,又或者……”她也有些語塞。
在科技急速發(fā)展的年代,各類人工智能的應用如雨后春筍一般閃現(xiàn),隨之而來的是職場的多變。劉夢緣現(xiàn)在能依靠的,就是自己在“教學”生涯中的經(jīng)驗,至于那些新入行的標注師們,他們剛踏上了人工智能的列車,卻已經(jīng)駛向一個模糊的未來。
作者:潘弗尼;編輯:秦言;來源微信公眾號:懂懂筆記(ID:dongdong_note),《小米生態(tài)鏈戰(zhàn)地筆記》、《微信思維》、《微信力量》三本暢銷書的作者,多年財經(jīng)媒體經(jīng)歷,業(yè)內(nèi)資深分析人士。
本文由 @潘弗尼、秦言 整理發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自Unsplash,基于CC0協(xié)議
一切為數(shù)據(jù)奮斗,枯燥的看著數(shù)據(jù)確實很疲憊,但這也是時代需求嘛沒辦法
新時代的數(shù)據(jù)民工吧 哎
人工數(shù)據(jù)標注確實是枯燥,但是沒有數(shù)據(jù)標注算法的能力確實不太理想。
之前實習就做過類似的工作,枯燥無味。
之前實習就做過類似的工作,枯燥無味。