大模型標注:你看不上的數據標注正在成為高薪工作
大模型的出現激發出了不少新興崗位,也讓越來越多崗位備受人關注。數據標注這個崗位就是其中之一。想了解更多有關數據標注、大模型標注的同學,或許可以看看這篇文章。
2022年底,ChatGPT引爆大語言模型,全球科技巨頭紛紛入局,后來各家不僅限于自然語言技術,更是將文生圖、文生音頻、文生視頻、圖生視頻等多模態技術“玩”出了新高度,近期大模型生成的兵馬俑,還跳起了“科目三”的熱舞。
大模型的熱潮為人工智能開啟了新篇章,作為大模型數據能力鏈條上的重要一環,數據標注受到前所未有的關注,數據是人工智能的基礎,是人工智能更是大模型源源不斷的養分來源,數據標注這個環節做得如何,直接決定了大模型有多聰明。
OpenAI這家公司,在全球大模型領域是跑在最前面的,在數據標注上也有一套自己的方法論,他們的數據標注方式是先做出預訓練模型,再用強化學習加上人工反饋來調優,也就是RLHF(Reinforcement Learning from Human Feedback)。
他們找了很多家數據公司來共同完成數據標注,自己還組建了一個由幾十名哲學博士組成的質檢團隊,對標注好的數據進行檢查,但不是以對錯來評估,而是給每個問題選出多個匹配的結果,再經過多人多倫的結果排序,直至模型數據符合常人思維,甚至某些專業領域的結果要達到中等以上知識水平,OpenAI成立8年,花費10億美元用于模型訓練,可見其對數據的重視程度。
一、大模型標注的特點
1. 非結構化
上一代數據標注工作,主要以“打點”和“畫框”為主,就是讓機器學習什么是“人臉”,什么是“障礙物”,需要嚴格按照客戶給定的標注規范進行,標注要求也偏客觀?,F在的大模型標注更像是在做閱讀理解,讓模型學習應該給出什么樣的內容,大模型生成的多個結果哪個更接近滿分答案,標注要求偏主觀,難以形成統一的標準。
標準從客觀到主觀,使得標注工作更難做了,這非常考驗標注師的主觀能動性以及解決問題的能力,而且標注師需要具備很廣的知識面,這說明數據標注工作,不再是個結構化的簡單工作,而是變成了需要邏輯思維的非結構化工作。
2. 知識密集型
大模型背景下的標注工作主要分為兩類:通識大模型標注、領域大模型標注。目前市面上的大模型產品多數是通識大模型,即便是通識大模型,標注工作也是非結構化的,需要標注師具備很廣的知識面,且具備較強的自然語言能力,實現了百分百本科的百度智能云海口標注基地,承擔的主要工作就是通識類的標注。
至于領域大模型標注,對學歷、能力、專業度的要求則更高,目前大多數行業或企業,需要的都是具備領域知識的專業人才,他們要重點解決金融、醫療、科技等領域的專業問題,最終形成符合專業邏輯的高質量數據。比如,政務大模型中,用戶通常會問很多“專精”的問題,例如“社保斷繳5年怎么辦?”這需要標注師讀取大量的政府文件,并能從中找到準確答案。
3. 學歷要求高
當年,數據標注被稱為AI領域的流水線工人,通常集中在東南亞、非洲或是中國的河南、山西、山東等人力資源豐富的地區。為了控制成本,標注公司的老板們會在縣城租一塊場地,擺上電腦,有訂單了就在附近招人兼職來做,沒單子就解散休息。
簡單來說,這個工種有點類似馬路邊上的臨時裝修工。如今的標注師坐在窗明幾凈的寫字樓,有自己的工位,很寬敞,上下班要打卡,看起來和互聯網公司里的白領們差不多,事實上也是如此,就像百度在海口的大模型標注基地,本科比例已經達到了100%,甚至很多專業領域的標注人員都是碩士或博士學歷,他們的身份不再是標注員,而是領域標注專家。
二、大模型標注的崗位情況
1. 崗位要求現狀
在北京,普通標注員的薪資水平在6-8k之間,和基礎的文員崗位薪資差不多,而大模型標注的薪資卻高得多,在招聘網站上看了一些大模型標注的崗位,薪資水平多數在10-15k之間,甚至某些專業領域的標注人員薪資水平接近兩萬,這些崗位可都是執行層的標注人員,并非管理崗或專家類崗位。
當然這些崗位的要求也比較高,學歷要求基本都是本科起,某些還會要求一本或211/985院校,除了硬性的學歷要求,對專業能力或綜合能力要求也比較高,某些會要求專業領域經驗,比如下圖中的兩個樣例,一個是教育領域的,一個是財經領域的,或者某些會要求外語水平,這也是很容易理解,因為大模型是和世界接軌的,國內很多大模型產品也需要部署外語環境下的大模型。
2. 崗位發展建議
由此,給在做數據標注或考慮做數據標注的同學兩條建議:第一,有機會一定要轉型到大模型領域,如果沒有機會就要想辦法創造機會,總之這波大模型的趨勢我們一定要抓住,因為這可能是我們普通標注員為數不多的發展機會了。第二,一定要從事有專業知識的標注工作,簡單標注工作薪資水平低,關鍵是很容易被替代,所以要建立自己的專業壁壘,才能在變幻莫測的職場中,使自己立于不敗之地。
三、大模型標注的發展前景
1. 職業發展前景
數據標注這條流水線目前主要由標注師和質檢員組成,完成標注后,直接交給算法工程師,他們會用數據對大模型做測試,看看哪些方面還有不足,再有針對性的做下一輪標注和調試。
未來,這條流水線上還會出現更多細分崗位,例如模型評估師(指導大模型調優方向)、指令工程師(研究與大模型交互更高效的方式)、視頻音頻標注師、專業領域標注師等,這些崗位都是現在標注人員的發展方向,不僅崗位有更細分、更專業的發展方向,而且崗位需求量也會不斷增大,預計未來五年,數據標注相關專業人才缺口將達百萬量級。
2. 行業發展前景
目前數據標注市場主要有兩類參與者,一類是第三方標注公司,另一類是頭部科技公司自建數據標注團隊。
此外還有一些中間商,對接公司需求和標注團隊。傳統的數據標注行業主要依靠渠道、人力等形成的低成本優勢,在未來,數據需求方將更看重數據質量、場景多樣性和可擴展性,這樣才能讓大模型發揮更大的作用。在大模型為主的“智能革命”浪潮下,國內基礎數據服務業將達到百億市場規模,成為智能時代的新寵兒。
本文由 @艷杰 原創發布于人人都是產品經理。未經許可,禁止轉載
題圖來自Unsplash,基于CC0協議
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。
有幫助,謝謝樓主
寫的很專業,樓主棒棒噠