久久亚洲精品中文字幕亚瑟,天天躁日日躁狠狠躁超碰97,欧美亚洲国产成人一区二区三区

搜索

APP

起點課堂會員權益

職業體系課特權

線下行業大會特權

個人IP打造特權

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業技能直播

會員專屬社群

榮耀標識

發布

注冊 | 登錄

人機耦合時代下的數據眾包產業化

無問西東

2019-08-07

1 評論 8056 瀏覽 27 收藏

11 分鐘

隨著數據眾包產業的不斷崛起，本文從數據眾包產業化中的不同板塊進行解析，為我們分享數據眾包產業化的行業發展以及發展特征。

在互聯網有一種新的產業正在興起，那就是——數據眾包。要想深入了解什么是數據眾包就要從它的客戶需求聊起：

“數據眾包”的金主爸爸：產業上游AI

人工智能（Artificial Intelligence），它是研究、開發用于模擬、延伸和擴展人的智能的理論、方法、技術及應用系統的一門新的技術科學。AI是目前對數據需求量最大的客戶，并且都是大型公司，小企業由于各方面資源的限制很少會使用大數據進行研究。

AI是一個新領域么？

不是，AI是計算機科學的一個分支，AI一詞最初是在1956 年Dartmouth學會上提出。從神經網絡到人機耦合，當前的AI研究更著眼于從人類產生的數據中分析算法來訓練計算機從事人的工作。

AI現在能做什么？

解放工業生產力：應用于工業領域，例如：使用AI處理工業數據或機器人操作。
人臉識別與監控：應用于國防安保、金融加密等。
服務行業：智能語音（聊天）機器人替代人類從事24小時客服工作、電話銷售、家庭陪伴等。
其他：在汽車、醫療、設計、廣告、影視等領域輔助人類進行工作。

“數據眾包”的甲方大佬：機器學習

機器學習是AI的一個分支。機器學習使用算法解析數據，從中學習，然后對世界上的某件事情做出決定或預測。機器學習與軟件編程最大的區別是——機器學習是在教計算機如何開發一個算法來完成任務而不是編寫程序讓計算機執行任務。機器學習使用分類和回歸、聚類和降維、以及歷史經驗達到學習的目的。

Python

目前做人工智能的公司基本上選擇的都是Python語言。Python是一門解釋型編程語言，方便調試而且可以跨平臺。Python語言具有豐富的第三方程序庫，一些平臺會面向互聯網用戶提供機器學習的Python應用編程接口。Python也有豐富完整的開源工具包。機器學習中最常用的一些庫：Scikit-learn、Tensorflow、Theano、Pandas、Matplotlib、Seaborn。

大數據

大數據指不用隨機分析法（抽樣調查）這樣的捷徑，而采用所有數據進行分析處理。

大數據的5V特點（IBM提出）：

Volume（大量）
Velocity（高速）
Variety（多樣）
Value（低價值密度）
Veracity（真實性）

數據就像是機器學習的燃料，5V的程度越高機器學習的效果越好。

數據服務產業化——產業下游眾包模式

為了給機器學習提供充足的數據進行訓練和驗證，研究人員需要大量的原始數據和標準化數據。提供數據眾包服務的平臺也就應運而生。

目前BAT都有了自己的數據眾包服務平臺/服務：百度數據眾包平臺、阿里人工智能眾包（公測）、騰訊數據標注采集服務。

其他比較知名的眾包平臺還有：螞蟻眾包、有道AI眾包（目前新用戶停止審核）、華為數據眾包、Testin云測、來打標數據平臺。

百度數據眾包服務（圖片來自官網）

數據眾包服務的形式

數據眾包服務分為個人分包和企業分包兩種。

個人分包

即服務商運營眾包平臺/app面向普通大眾分派任務，服務商提供便捷易學習的數據標注/拍攝/識別工具，對接包者進行培訓和訓練以達到可以提供標準數據服務的目的，接包者大多是兼職人群，可以提供簡單的操作獲取回報。

個人分包的好處是：價格便宜，服務商可以以低廉的價格獲取處理結果。

企業分包

即服務商將數據任務包分派給合作商，由合作商完成并提供返回符合要求的處理結果。目前阿里和騰訊基本采用這種眾包方式。

企業分包的好處是：易管理，服務商無需分派過多人手進行分包、驗收等工作。

專職分包商即接包的企業，他們與大數據服務商進行合作，接到任務后或自己組織人手處理數據、或運營平臺分配給其他個人或更小的專職分包商。

眾包平臺對上游的依賴

眾包平臺上的原始“發包方“基本為BAT以及幾個走在AI領域前沿的大型公司，所以第三方的眾包平臺對上游的依賴嚴重，即失去“發包方”后難以再利用手中的資源創造新的市場。通過眾包形式來采集的數據質量參差不齊，即使眾包平臺對采集到的數據進行清洗、整理，仍然無法提高其與適用場景的契合度，這也制約了眾包數據毛利率上升空間。