人機耦合時代下的數據眾包產業化

1 評論 8056 瀏覽 27 收藏 11 分鐘

隨著數據眾包產業的不斷崛起,本文從數據眾包產業化中的不同板塊進行解析,為我們分享數據眾包產業化的行業發展以及發展特征。

在互聯網有一種新的產業正在興起,那就是——數據眾包。要想深入了解什么是數據眾包就要從它的客戶需求聊起:

“數據眾包”的金主爸爸:產業上游AI

人工智能(Artificial Intelligence),它是研究、開發用于模擬、延伸和擴展人的智能的理論、方法、技術及應用系統的一門新的技術科學。AI是目前對數據需求量最大的客戶,并且都是大型公司,小企業由于各方面資源的限制很少會使用大數據進行研究。

AI是一個新領域么?

不是,AI是計算機科學的一個分支,AI一詞最初是在1956 年Dartmouth學會上提出。從神經網絡到人機耦合,當前的AI研究更著眼于從人類產生的數據中分析算法來訓練計算機從事人的工作。

AI現在能做什么?

  • 解放工業生產力:應用于工業領域,例如:使用AI處理工業數據或機器人操作。
  • 人臉識別與監控:應用于國防安保、金融加密等。
  • 服務行業:智能語音(聊天)機器人替代人類從事24小時客服工作、電話銷售、家庭陪伴等。
  • 其他:在汽車、醫療、設計、廣告、影視等領域輔助人類進行工作。

“數據眾包”的甲方大佬:機器學習

機器學習是AI的一個分支。機器學習使用算法解析數據,從中學習,然后對世界上的某件事情做出決定或預測。機器學習與軟件編程最大的區別是——機器學習是在教計算機如何開發一個算法來完成任務而不是編寫程序讓計算機執行任務。機器學習使用分類和回歸、聚類和降維、以及歷史經驗達到學習的目的。

Python

目前做人工智能的公司基本上選擇的都是Python語言。Python是一門解釋型編程語言,方便調試而且可以跨平臺。Python語言具有豐富的第三方程序庫,一些平臺會面向互聯網用戶提供機器學習的Python應用編程接口。Python也有豐富完整的開源工具包。機器學習中最常用的一些庫:Scikit-learn、Tensorflow、Theano、Pandas、Matplotlib、Seaborn。

大數據

大數據指不用隨機分析法(抽樣調查)這樣的捷徑,而采用所有數據進行分析處理。

大數據的5V特點(IBM提出):

  • Volume(大量)
  • Velocity(高速)
  • Variety(多樣)
  • Value(低價值密度)
  • Veracity(真實性)

數據就像是機器學習的燃料,5V的程度越高機器學習的效果越好。

數據服務產業化——產業下游眾包模式

為了給機器學習提供充足的數據進行訓練和驗證,研究人員需要大量的原始數據和標準化數據。提供數據眾包服務的平臺也就應運而生。

目前BAT都有了自己的數據眾包服務平臺/服務:百度數據眾包平臺、阿里人工智能眾包(公測)、騰訊數據標注采集服務。

其他比較知名的眾包平臺還有:螞蟻眾包、有道AI眾包(目前新用戶停止審核)、華為數據眾包、Testin云測、來打標數據平臺。

百度數據眾包服務(圖片來自官網)

數據眾包服務的形式

數據眾包服務分為個人分包和企業分包兩種。

個人分包

即服務商運營眾包平臺/app面向普通大眾分派任務,服務商提供便捷易學習的數據標注/拍攝/識別工具,對接包者進行培訓和訓練以達到可以提供標準數據服務的目的,接包者大多是兼職人群,可以提供簡單的操作獲取回報。

個人分包的好處是:價格便宜,服務商可以以低廉的價格獲取處理結果。

企業分包

即服務商將數據任務包分派給合作商,由合作商完成并提供返回符合要求的處理結果。目前阿里和騰訊基本采用這種眾包方式。

企業分包的好處是:易管理,服務商無需分派過多人手進行分包、驗收等工作。

專職分包商即接包的企業,他們與大數據服務商進行合作,接到任務后或自己組織人手處理數據、或運營平臺分配給其他個人或更小的專職分包商。

眾包平臺對上游的依賴

眾包平臺上的原始“發包方“基本為BAT以及幾個走在AI領域前沿的大型公司,所以第三方的眾包平臺對上游的依賴嚴重,即失去“發包方”后難以再利用手中的資源創造新的市場。通過眾包形式來采集的數據質量參差不齊,即使眾包平臺對采集到的數據進行清洗、整理,仍然無法提高其與適用場景的契合度,這也制約了眾包數據毛利率上升空間。

眾包平臺對地域的要求

大多數數據都以文字、音頻、視頻的形式保存,所以眾包平臺很難達到跨國經營。所以歐美國家一些成熟的數據眾包公司始終沒有進入中國市場,相比適應中文,他們更愿意嘗試拉丁文語言市場。

而由于我國方言種類繁多,數據眾包是否具有嚴格的地域性標準還未可知,我們僅知道目前語音翻譯軟件公司對此有采集要求。

眾包平臺自拓市場

為了能夠擺脫“發包方”的絕對控制,眾包平臺只能研發新的服務項目。拓展新的服務對象就是延伸眾包數據市場的一個新手段。

協助政府監控

在過去的幾十年中,政府的數據來源都是自下而上的匯報,部分數據來自于調研。在這個長長的匯報鏈條中,如何避免利益相關者的干擾,如何得到一手真是數據是一個大問題。數據眾包服務可以發送全民提供數據,即使有部分數據失真,也能保證大數據具有參考價值。

美國公司Premise Data通過上萬名兼職人員,以拍照等形式采集商品的價格。這些數據經過整理后被賣給政府部門用于監控市場上各類商品的價格變動。Premise Data在2017年的估值大約為3.75億美元。

盤活傳統企業數據

傳統企業在經營過程中會產生大量生產數據,這些數據可能就此沉默在檔案庫和電腦中。眾包數據服務給了這些數據盤活的機會。人工分類、人工標注是遠超程序的數據清洗手段,但由于其需要的人力資源巨大,一般企業難以承受。眾包平臺可以通過培訓、考核等方法將這一枯燥的工作包裝成兼職,以低價獲得高質量數據。

各大眾包平臺/產品

我們可以看出來目前數據眾包是一個大魚吃小魚,小魚吃蝦米的產業鏈。作為一項操作簡單,人人皆可參與的工作,數據眾包在未來可能會遍地開花,一人一臺電腦或者一部手機就可以開設一個數據小作坊。

在打字錄入逐漸被計算機替代的今天,數據標注、數據識別等需要人腦進行“無計算感官識別”的工作仍然無法被機器代替。這一新興的、面向“低端”勞務市場的領域目前還在藍海階段,在中國這樣的人口大國如果能設計出一條“數據處理流水線”,也許就能在這個人機耦合時代下打造一個面向全球的數據“富士康”代工廠。

#專欄作家#

無問西東,人人都是產品經理專欄作家。工商管理碩士,貓奴一枚。主導過金融公司臺賬系統、多公司OA系統;參與過二手車平臺、P2P平臺設計。

本文原創發布于人人都是產品經理。未經許可,禁止轉載

題圖來自 Unsplash ,基于 CC0 協議

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 贊!

    來自吉林 回復