亚洲黄片在线免费观看,亚洲中文字幕久久精品无码一区,亚洲精品在看在线观看高清

搜索

APP

起點課堂會員權益

職業體系課特權

線下行業大會特權

個人IP打造特權

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業技能直播

會員專屬社群

榮耀標識

發布

注冊 | 登錄

人工智能的人工部分—數據標注（下）

小杰運營哇

2024-02-04

0 評論 3480 瀏覽 14 收藏

11 分鐘

大模型背后，大多需要數據標注甚至人工標注的支持，那么，怎么理解數據標注呢？這篇文章里，作者主要從業務角度出發，介紹標注規則的細則構建、標注團隊培養與管理的具體方法，一起來看。

如今的人工智能已是大模型的天下，但再強的智能，再大的模型，也需要人工標注的支持。上篇文章主要介紹了數據標注的分類、標注規則制定的原則，本篇文章主要從業務角度出發，介紹標注規則的細則構建、標注團隊培養與管理的具體方法。

一、標注規則構建

為了便于大家理解，本模塊主要參考王陽明先生“格物致知”的邏輯去展開，說明標注體系的搭建過程，就是一個“悟道”的過程，當然自己才疏學淺，如有運用不當的地方，希望大家多多包涵！

1. 單因子拆解標注——析物

上篇文章講了標注規則的三步法：單因子標注、多維因子排列組合、綜合策略評分，其中最基礎也是最重要的一環就是第一步：單因子標注，就是將所有影響標注結果的因素依次列舉，對每個影響因素單獨標注。

例如，標注簡歷與職位的匹配度，即模擬HR招人的思路給推薦的簡歷打分，首先要將影響HR招人的因素全部列出來，例如工作地點、行業類別、薪資水平、學歷要求、專業要求等。

然后分別對每個因素進行標注打分，打分時要將行業的一些通用規則考慮進去，例如，某職位要求學歷是本科，這里的本科大概率是指全日制統招本科，而不是花點錢就能上，或者根本不需要學習就能獲得證書的成考或自考本科。

那么問題來了，如何識別統招學歷呢？什么樣的學歷屬于全日制的呢？哪些院校是統招的呢？野雞大學算不算統招的呢？有沒有識別野雞大學的方法？

僅學歷一個因素標注細則就很多，識別邏輯也很復雜，我們要將十幾項因子里的每一項，都進行多維度深度思考與分析，并給出可衡量的標注規則與指標。這一層的核心是“析物”，即深入剖析每一個因子，直到剖到每個因子的根部，程頤認為，凡一物上有一理，須窮致其理。

2. 多因子排列組合——量物

在上篇文章就講到，多因子排列組合不是單純的給每個因子賦予固定的權重，而是將每個因子結合具體場景，分析各因子在具體場景中的的重要程度，因為場景不同，標注細則就不同。

那么有哪些具體場景呢？

第一，標注對象不同，標注細則就不同，在招聘業務中，標注對象是職位，職位類型不同標注的關注點就不同，比如，招聘銷售類崗位關注行業經驗、業績能力、客戶群體等，招聘藍領崗位只要候選人愿意做、身體健康即可，招聘財務類崗位則會要求資格證書。

第二，各影響因子的程度不同，標注細則也不同，比如要招聘一位初級文員，但是候選人年齡超過了50歲，再比如要招聘一名銷售員，但是候選人五年前做過銷售，現在早就不做銷售了，而且也不想再做銷售了，類似這種情況可能因為這一個因子，總分就可能給到0分。

所以標注細則的場景數量，是標注對象類型與影響因子的乘積，但在招聘業務場景中，標注對象類型有1000多種，影響因子有十多種，所以標注細則是一萬多條嗎？在實際操作中不可能列出所有場景，并給出所有的標注細則，這些場景需要標注員基于實際業務靈活運用規則。這一層的核心是“量物”，即衡量所有標注對象，并將其與影響因子融會貫通，活學活用，找到那個平衡的度。

3. 各因子融會貫通——悟物

在第二步中講到標注細則的場景數量，是標注對象類型與影響因子的乘積，這個數量級太大了，在實際業務中需要融會貫通，但是怎么能做到融會貫通呢？有沒有一些歸類方法，或針對不同場景的指導思想呢？

答案是肯定的，首先，影響因子可以按照對最終結果的重要程度分為三類：重要因子，時而重要因子，弱項影響加減分的因子，其次，職位類別可以按照對專業技能的強弱分為四類：強技能類職位，較強技能職位，弱技能職位，無技能職位，最后，根據此等分類，我們得到了12種場景，此時我們可以針對這12種場景做細節的標注規則了。

分類之后是匯總，就是所謂的融會貫通，不管是規則制定者還是標注員，到這一階段都要到達一種境界，就是忘掉之前的細節規則，從良知出發評估簡歷與職位的匹配度，是非常匹配，還是比較匹配，還是不太匹配，還是非常不匹配，也就是王陽明先生所謂的“致良知”。

完成最終評分后，不要忘記將不匹配的原因以標簽的形式固定下來，這樣便于后面的問題分析與策略優化。

二、標注團隊管理

1. 新人培訓與管理

無規矩不成方圓，可見規矩是形成方圓的關鍵，但是方圓之內要有田地苗木，才是一塊好的方圓之地，標注規則就是這規矩，而標注所依賴的領域知識就是其中的田地苗木，所以新人入職首先要學習標注規則，但同時也要學習領域知識，尤其是專業性比較強的領域，如此兩條腿走路，才能學好整個標注體系。

在學習的前提下，標注練習是必不可少的，首先可以做單因子標注的練習，合格之后再進行綜合評分的練習，此時的練習，最好是有正確答案的，這樣可以隨時監督新人練習的進度和質量，也可以制定一套新人培訓學習體系，里面不僅要包括要學的內容，還要列清楚練習期間的任務數量，以及每個階段所要達成的質量指標，以此來評判新人培訓期間的成績。

2. 質量把控與管理

相信做過標注工作的同學都明白，低質量的標注數據會直接影響模型的訓練效果，所以數據質量是標注工作的重中之重。保證標注質量的前提是做好任務的培訓，明確標注需求、標注方法和驗收標準。數據驗收環節一般會采用自檢、交叉檢驗，或者按任務進行分類檢驗的方式進行檢驗，甚至大一些的標注團隊會設置專門的質檢小組，對標注員的標注結果進行抽檢或全檢。

本文重點介紹另外一種質檢方式，即提前插入正確樣本，以檢驗標注質量的方式，此種方式可以節約一定的成本，因為不用進行雙驗或多驗了，還能時刻檢驗標注員的工作態度，以及對任務是否真的理解，能否達到要求的質量標準，如果發現質量不合格，則可以立刻更換標注員或進行再次培訓。

此種方式主要適用于結構化且需要長期標注的項目，要提前設置好正確樣本，建任務時插入樣本，至于插入的比例，可以根據具體任務需求，或不同標注人群進行設置。

需要注意的是，一組正確樣本如果長期使用，可能標注員都記住哪些是樣本了，所以一定要經常更換正確樣本，以達到“混淆視聽”的效果，此外還需要保證正確樣本的質量，不能出現正確樣本不正確的情況。標注質量把控是一項非常重要，也非常有難度的事情，后續可能會單獨寫一篇質量把控相關的文章，請大家多多關注。

至此，整個標注體系的重點工作或原則都講完了，如有不足或錯誤的地方，還希望大家能不吝賜教，指正出來。開篇就說到，如今的人工智能已是大模型的天下了，那么下篇文章會重點講講大模型標注那些事，請大家多多關注。

本文由 @艷杰原創發布于人人都是產品經理。未經許可，禁止轉載

題圖來自Unsplash，基于CC0協議

該文觀點僅代表作者本人，人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容，請關注人人都是產品經理微信公眾號或下載App