激情综合色综合久久综合,黄色网站免费高清无码,亚洲欧美高清一区二区三区

搜索

APP

起點課堂會員權益

職業體系課特權

線下行業大會特權

個人IP打造特權

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業技能直播

會員專屬社群

榮耀標識

發布

注冊 | 登錄

大模型標注：你看不上的數據標注正在成為高薪工作

小杰運營哇

2024-02-06

2 評論 3562 瀏覽 6 收藏

10 分鐘

大模型的出現激發出了不少新興崗位，也讓越來越多崗位備受人關注。數據標注這個崗位就是其中之一。想了解更多有關數據標注、大模型標注的同學，或許可以看看這篇文章。

2022年底，ChatGPT引爆大語言模型，全球科技巨頭紛紛入局，后來各家不僅限于自然語言技術，更是將文生圖、文生音頻、文生視頻、圖生視頻等多模態技術“玩”出了新高度，近期大模型生成的兵馬俑，還跳起了“科目三”的熱舞。

大模型的熱潮為人工智能開啟了新篇章，作為大模型數據能力鏈條上的重要一環，數據標注受到前所未有的關注，數據是人工智能的基礎，是人工智能更是大模型源源不斷的養分來源，數據標注這個環節做得如何，直接決定了大模型有多聰明。

OpenAI這家公司，在全球大模型領域是跑在最前面的，在數據標注上也有一套自己的方法論，他們的數據標注方式是先做出預訓練模型，再用強化學習加上人工反饋來調優，也就是RLHF（Reinforcement Learning from Human Feedback）。

他們找了很多家數據公司來共同完成數據標注，自己還組建了一個由幾十名哲學博士組成的質檢團隊，對標注好的數據進行檢查，但不是以對錯來評估，而是給每個問題選出多個匹配的結果，再經過多人多倫的結果排序，直至模型數據符合常人思維，甚至某些專業領域的結果要達到中等以上知識水平，OpenAI成立8年，花費10億美元用于模型訓練，可見其對數據的重視程度。

一、大模型標注的特點

1. 非結構化

上一代數據標注工作，主要以“打點”和“畫框”為主，就是讓機器學習什么是“人臉”，什么是“障礙物”，需要嚴格按照客戶給定的標注規范進行，標注要求也偏客觀?，F在的大模型標注更像是在做閱讀理解，讓模型學習應該給出什么樣的內容，大模型生成的多個結果哪個更接近滿分答案，標注要求偏主觀，難以形成統一的標準。

標準從客觀到主觀，使得標注工作更難做了，這非常考驗標注師的主觀能動性以及解決問題的能力，而且標注師需要具備很廣的知識面，這說明數據標注工作，不再是個結構化的簡單工作，而是變成了需要邏輯思維的非結構化工作。

2. 知識密集型

大模型背景下的標注工作主要分為兩類：通識大模型標注、領域大模型標注。目前市面上的大模型產品多數是通識大模型，即便是通識大模型，標注工作也是非結構化的，需要標注師具備很廣的知識面，且具備較強的自然語言能力，實現了百分百本科的百度智能云海口標注基地，承擔的主要工作就是通識類的標注。

至于領域大模型標注，對學歷、能力、專業度的要求則更高，目前大多數行業或企業，需要的都是具備領域知識的專業人才，他們要重點解決金融、醫療、科技等領域的專業問題，最終形成符合專業邏輯的高質量數據。比如，政務大模型中，用戶通常會問很多“專精”的問題，例如“社保斷繳5年怎么辦？”這需要標注師讀取大量的政府文件，并能從中找到準確答案。

3. 學歷要求高

當年，數據標注被稱為AI領域的流水線工人，通常集中在東南亞、非洲或是中國的河南、山西、山東等人力資源豐富的地區。為了控制成本，標注公司的老板們會在縣城租一塊場地，擺上電腦，有訂單了就在附近招人兼職來做，沒單子就解散休息。

簡單來說，這個工種有點類似馬路邊上的臨時裝修工。如今的標注師坐在窗明幾凈的寫字樓，有自己的工位，很寬敞，上下班要打卡，看起來和互聯網公司里的白領們差不多，事實上也是如此，就像百度在海口的大模型標注基地，本科比例已經達到了100%，甚至很多專業領域的標注人員都是碩士或博士學歷，他們的身份不再是標注員，而是領域標注專家。

二、大模型標注的崗位情況

1. 崗位要求現狀

在北京，普通標注員的薪資水平在6-8k之間，和基礎的文員崗位薪資差不多，而大模型標注的薪資卻高得多，在招聘網站上看了一些大模型標注的崗位，薪資水平多數在10-15k之間，甚至某些專業領域的標注人員薪資水平接近兩萬，這些崗位可都是執行層的標注人員，并非管理崗或專家類崗位。

當然這些崗位的要求也比較高，學歷要求基本都是本科起，某些還會要求一本或211/985院校，除了硬性的學歷要求，對專業能力或綜合能力要求也比較高，某些會要求專業領域經驗，比如下圖中的兩個樣例，一個是教育領域的，一個是財經領域的，或者某些會要求外語水平，這也是很容易理解，因為大模型是和世界接軌的，國內很多大模型產品也需要部署外語環境下的大模型。

2. 崗位發展建議

由此，給在做數據標注或考慮做數據標注的同學兩條建議：第一，有機會一定要轉型到大模型領域，如果沒有機會就要想辦法創造機會，總之這波大模型的趨勢我們一定要抓住，因為這可能是我們普通標注員為數不多的發展機會了。第二，一定要從事有專業知識的標注工作，簡單標注工作薪資水平低，關鍵是很容易被替代，所以要建立自己的專業壁壘，才能在變幻莫測的職場中，使自己立于不敗之地。

三、大模型標注的發展前景

1. 職業發展前景

數據標注這條流水線目前主要由標注師和質檢員組成，完成標注后，直接交給算法工程師，他們會用數據對大模型做測試，看看哪些方面還有不足，再有針對性的做下一輪標注和調試。

未來，這條流水線上還會出現更多細分崗位，例如模型評估師（指導大模型調優方向）、指令工程師（研究與大模型交互更高效的方式）、視頻音頻標注師、專業領域標注師等，這些崗位都是現在標注人員的發展方向，不僅崗位有更細分、更專業的發展方向，而且崗位需求量也會不斷增大，預計未來五年，數據標注相關專業人才缺口將達百萬量級。