亚洲无码免费视频,99精品国产福利在线观看

搜索

APP

起點課堂會員權益

職業體系課特權

線下行業大會特權

個人IP打造特權

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業技能直播

會員專屬社群

榮耀標識

發布

注冊 | 登錄

我在大廠訓練AI：用鼠標拉框，一次賺3分錢

刺猬公社

2021-05-13

1 評論 3584 瀏覽 4 收藏

19 分鐘

編輯導語：用機器做出來的訓練集來訓練機器，是一個有意思的事情。不少兼職平臺的人在批量生產著AI訓練集，重復是他們工作的常態。而隨著AI和機器的不斷自我訓練和進化，AI訓練AI就在不遠的未來，這類平臺的未來可能性將會更小。

我們和何信通話的時候，他正在做數據標注的工作。

電腦屏上的圖片里，三三兩兩的人在操場上，或是在跳繩，或是在圍觀。何信要做的是用鼠標將正在跳繩的人框出來?！罢f出來你可能都不相信，就是畫這一個框?！焙涡沤忉尩溃昂帽饶悻F在打開電腦，然后摁住鼠標右鍵拉一下，在桌面上就是一個框就是3分錢。”

我在大廠訓練AI：用鼠標拉框，一次賺3分錢

何信在做數據標注工作，何信供圖

何信做數據標注的工作有一年多，他自己成立了一個創業小團隊，團隊里有十幾個人。他們的項目涉及百度、網易、阿里等互聯網大廠，他也做細致的“打點”工作，類似一個鞋的邊框打點一周，二十幾個點，掙一到兩角錢。

“阿里眾包、京東微工、百度眾測、有道眾包……”市面上這樣的產品有很多，利用碎片化時間獲得收入、操作簡單無門檻是它們最主要的賣點。這類互聯網大廠推出兼職平臺，主要以眾包的形式給用戶分配任務，用戶通過完成任務來獲得報酬。但相較這些大廠的知名產品而言，兼職平臺們的下載量并不高。

我們查詢產品下載量統計平臺七麥數據后發現，AppStore中阿里眾包、騰訊搜活幫、京東微工、百度眾包等四款產品，近30日日均下載量未超過2000。

我在大廠訓練AI：用鼠標拉框，一次賺3分錢

圖源：七麥數據查詢時間：2021年4月27日

從產品數據上看，互聯網大廠的兼職App只能說不溫不火。在靈活用工、兼職經濟高度發展的當下，這類兼職App為什么沒做起來？都是誰在做這份工作？

一、收益太少，羊毛難薅

互聯網大廠出品的兼職APP中，運作流程是：平臺發布任務，用戶領取任務驗收后獲得收益。綜合各平臺來看，主要有數據標注、數據采集、數據轉寫工作。細分到具體領域，又分為文本、圖片、語音、視頻等部分的信息處理。任務的價格一般在0.1元到幾十元不等。

在騰訊搜活幫里，李元接了十幾單任務，賺了不到兩塊錢。

放棄倒不是因為錢少，而是因為這份工作過于機械化，重復性勞動讓李元很不適應。他大學讀的是電子信息工程專業，畢業后工作也比較清閑。出于賺錢和打發時間的目的，李元下載了這款眾包類型的軟件。

眾包，通俗來講，就是從大眾那里尋找資源。它本意是指一個公司或機構把過去由員工執行的工作任務，以自由自愿的形式外包給非特定的（而且通常是大型的）大眾志愿者的做法。

以京東微工的數據標注為例，在最新一期的任務里要求對文本進行情感判斷，根據自己的認知選擇文本是正向、中性還是負面。該結算兩分一條，以10條為結算單位，要求正確率100%。

我在大廠訓練AI：用鼠標拉框，一次賺3分錢

圖源：京東微工

數據采集一般為音頻、圖片、視頻方面的采集，周舟熱衷于做數字采集方面的工作，2019年高中畢業后，他開始嘗試這方面的兼職工作。兩年的時間，他陸陸續續賺了3000多?！拔乙矝]有天天去看，阿里眾包在年終、年初、年底的任務很多?！?/p>

在每個任務里，都有明確的要求，周舟認為這樣很明確，可以很快地分辨哪些好做哪些不好做。

我在大廠訓練AI：用鼠標拉框，一次賺3分錢

圖源：阿里眾包

相比于數據標注、采集方面的工作，數據轉寫的門檻稍微高些。所謂的數據轉寫，主要是各種語言轉譯工作，比如，在有道眾包的少兒英語段音頻轉寫里，要求口誤重復、語法錯誤等如實轉寫，這對于答題者的英語水平要求不低。

我在大廠訓練AI：用鼠標拉框，一次賺3分錢

圖源：有道眾包

為了確保用戶所提交產品的質量，除了在提交內容上有所要求，在用戶提交前也有所培訓。在騰訊搜活幫里需要首先進行考試，考試通過后方能進行答題。周舟曾經做過這類型的考題，做完20道題，正確11道，他得出了結論——裸考必掛。

李元參加這種考試，也沒有一次就過的情況，“這種題目需要耐心和比較細膩的語感，而我是那種粗枝大葉的人，而且多次失敗之后帶來的挫敗感太糟糕了?！?/p>

我在大廠訓練AI：用鼠標拉框，一次賺3分錢

圖源：騰訊搜活幫

等平臺發任務——做任務——等平臺審核是這類眾包軟件使用的常規流程，而在這些流程里有任何一個環節脫節，都會帶來不好的用戶體驗。

下載軟件發現無任務可做，做任務時發現門檻過高，任務完成發現審核太久，審核后發現正確率不合格……在這條任務鏈里，用戶會遭遇各樣的問題，有網友在五個任務都審核失敗后發文稱“費力不討好。”

部分平臺審核不合格后，價格會打折扣。但還是有人賺到錢了，在有道眾包的3月酬勞排行榜上，第一名酬勞1945.99元。周舟對于自己兩年多攢的3000多元表示滿意，“因為目前還是在校生，沒有工作?！?/p>

“一小時10元吧。”何信評估了一下做眾包工作的平均報酬。

二、用戶下沉，也在內卷

兼職眾包的平臺用戶，有一種團隊化的趨勢。

就目前市面上的眾包產品來看，任務很多是不定期推送的，新用戶注冊后平臺上有可能面臨無任務可領的情況，而相較于加公會做團隊而言，普通用戶賺的錢是很少的。

而這份工作的主力，互聯網巨頭們可能也并沒有瞄準客戶端的普通用戶。據何信了解，向他這樣做團隊接項目的同行有不少，在平臺活躍著的也有很大部分是像他們這樣的團隊。

相比于單獨個人當兼職做，團隊化容易的多。價格在近些年也有了不小的變化，以前價格很貴，現在的價格越來越低，由此帶來用戶的不斷往下沉淀。何信表示用戶下沉是要找便宜的勞動力。

2016左右，那時候做數據標注的人還不是很多，何信說那時候價格是目前兩到三倍，畫一個框大概七八分錢。“以前做的人少就掙錢，現在做的人多了就不值錢了，就這個意思。”兼職眾包的用戶們，也在不可避免地遭遇內卷。

在何信團隊里，一個成熟的員工一小時能畫600個框，按照一個框3分的標準，能賺18元。“但是這個價格是我完全不賺錢。”何信說。而3分的價格在面向用戶的平臺里很少出現，在用戶平臺端三分的價格算是很高的。何信找的熟人介紹做項目，一般接一個項目幾千上萬的量，然后做上一個月。

這個行業流動性很大，重復性勞動和越來越低的價格讓很多人止步于此。何信的團隊不算大，上個月還是五六個人。來的員工一般都是學生，兼職在做這份工作。五六個兼職的同學才能留下一個，何信對自己團隊流動習以為常。

“一開始不熟悉業務，做不了那么快，幾乎就賺不了什么錢，完全看自己做的數量?！焙涡沤忉寛F隊流動大的原因。

除了數據標注，何信的團隊也做過涉及語音轉義、數據采集等方面的工作，兩三歲孩童的語音、粵語、陜西話的轉義他們都做過。語音轉義一般來說三分鐘能給到七塊左右，數據采集工作相對來說賺的更多，但過于費時費力，這塊業務也慢慢擱下了。

“車道線、車、人臉，人體……”何信做的數據標注類目有很多，但都是二維的。數據標注的同行們有的在做三維標注，這樣的工作日薪能達300元左右。

我在大廠訓練AI：用鼠標拉框，一次賺3分錢

圖源：百度眾測

但這樣的薪資并不是普遍化的，簡單重復性的二維圖片數據標注工作薪資并沒那么可觀。

小作坊的出現，是數據標注團隊的一個大趨勢。何信對于這份工作的人有大概的畫像。在城鄉結合部，或者鄉村小作坊，有那么一批人，二三十歲，學歷不是很高，就在縣城做這樣的工作。而很多人也有投資這種數據小作坊的打算。

“我就形容它是網絡時代的那種手工作坊?！焙涡艑@種城鄉結合部的小作坊下了一個定義。

“網絡時代的民工？”

“完全就是民工了，這不是調侃?！?/p>

三、互聯網大廠，為什么需要人兼職訓練AI

“訓練AI啊?！?/p>

何信很明確的知道自己所做的工作，電子信息工程專業的李元也知道這份工作的意義，“平臺給你提供的題目相當于是一個訓練的樣本。所有你做的題目就是AI的訓練集，它會通過人類的這種思維判斷去訓練AI。”

“能知道的只有他（平臺）告訴我的。具體數據去哪了，用于什么了，沒有去深究?！敝苤壑恢榔脚_告知的信息，在阿里眾包的一個任務中顯示，您接受的任務中涉及對個人信息的收集，任務發布者承諾在此任務中收集到的個人信息將會用于“算法訓練——牙齒病種識別”的目的，并僅限于任務發布者使用，并不向任何第三方轉讓、共享以及披露，匿名化或去標識化的除外。

我在大廠訓練AI：用鼠標拉框，一次賺3分錢

圖源：阿里眾包

“我們要教機器認識一個蘋果，你直接給它一張蘋果的圖片，它是完全不知道這是個什么東西的，需要現有蘋果的圖片，上面標注著“蘋果”兩個字，然后機器通過學習了大量的這類圖片，才能認識蘋果，其中將圖片表示為“蘋果”的工作就是數據標注?！?/p>

騰訊搜活幫用上述例子，說明了數據標注的意義。數據標注員的工作就是在教機器學習。

人工智能包含著機器學習，而監督學習是機器學習的一種訓練方式，通俗來講，是要給機器一種標準答案來不斷進行訓練，以此來達到人類一些識別認知的能力，這也是深度學習的一個目標。

深度學習的成功所依賴的既不是算法，也不是計算能力，而是訓練和驗證數據的可用性，這些數據最終是通過人的參與獲得的。這是一個非常重復性的勞動，因為機器學習需要大量的樣本，大量的樣本是由無數重復性勞動所造就的。

而這種重復性勞動在很早之前就有了。2003年，一款“ESP游戲”就用了這種勞動，它的目的是通過互聯網上人們的自由參與來獲得描述圖像的標簽。

在一個游戲中，兩個玩家在屏幕上看到相同的圖像，并被提示輸入描述該圖像的關鍵字。他們看不到對方正在鍵入什么，但如果兩人輸入相同的關鍵字足夠快（“匹配”），他們就會得到分數。實際上，這些關鍵字可以用作圖像的精確標簽。“ESP游戲”后來被谷歌收購，被稱為谷歌圖像標簽。

不止人工的重復性勞動，驗證碼也是訓練機器的一種方式。驗證碼本身是在人機交互中構建，以驗證用戶實際上是“人工用戶”的工具。

reCAPTCHA公司擴展了這一原則，將人類用戶的反應重新用作工業深度學習項目的培訓數據。為此，用戶需要解決一個小任務，如圖像識別或文本識別，這對人類來說是一個低的障礙，但對計算機機器人來說是一個高的障礙。而reCAPTCHA也被谷歌收購了。

科技自媒體“品玩”曾報道過類似的現象，驗證碼越來越有內容，比如標注門牌路牌，讓用戶幫分類數據庫等?！捌吠妗币仓赋鲈?reCAPTCHA 官網上，Google 公開說明了 reCAPTCHA 集眾人之力標注數據，訓練 AI 的“眾包”模式。
我在大廠訓練AI：用鼠標拉框，一次賺3分錢

網絡中識別圖片的驗證碼

捕獲人類的認知的方式已經不再局限于眾包中的重復性勞動，將人類的認知嵌入到計算機網絡中，讓人和機器的關系更加密切，而這種隱性的認知捕獲在互聯網的各個角落都在發生著。在重復性勞動不斷減少的當下，何信準備謀求新的出路。他的同行朋友們已經開始在做簡單的數據AI，讓簡單型的數據標注工作交給機器來操作。

用機器做出來的訓練集來訓練機器，是一個有意思的事情。

在城鄉結合部，一批二三十歲的人正在批量生產著AI訓練集，重復是他們工作的常態。也正是因為如此，工作枯燥、報酬微薄，充斥著“訓練AI”任務的眾包兼職平臺相當乏味，勸退了不少被兼職平臺大廠背景所吸引的用戶。

而隨著AI和機器的不斷自我訓練和進化，AI訓練AI就在不遠的未來，這類平臺的未來可能性將會更小。

備注：以上何信、李元、周舟均為化名

參考資料：《Human-aided artificial intelligence: Or, how to run large computations in human brains? Toward a media sociology of machine learning》，Rainer Mühlhoff

作者：劉鑫，編輯：園長；公眾號：刺猬公社（ID：ciweigongshe）

原文鏈接：https://mp.weixin.qq.com/s/WzBGk2TMEQp69yJtMG8wQA

本文由 @刺猬公社授權發布于人人都是產品經理，未經許可，禁止轉載

題圖來自 unsplash，基于 CC0 協議

該文觀點僅代表作者本人，人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容，請關注人人都是產品經理微信公眾號或下載App