致初創(chuàng)公司:數(shù)據(jù)這么玩才不會死
本文原作者 Matthew Coffman,他是專注于企業(yè)云的風投基金 High Alpha 的產品經(jīng)理,具有豐富的大數(shù)據(jù)行業(yè)經(jīng)驗,也參與和見證了許多數(shù)據(jù)類公司的創(chuàng)立和發(fā)展。根據(jù)自己在行業(yè)里多年的觀察和思考,Matthew Coffman 提出了以下幾條針對初創(chuàng)公司的數(shù)據(jù)科學實踐指南。
首先,我們需要明確一個概念:什么是數(shù)據(jù)科學家?
一般的定義是:能夠采用科學方法、運用數(shù)據(jù)挖掘工具對復雜多量的信息進行數(shù)字化重現(xiàn)與認識,并能從中找出新的數(shù)據(jù)洞察的工程師或專家。這里,從實際工程的角度,來自知名信息聚合平臺 Slack 的首席數(shù)據(jù)工程師 Josh Wills 對數(shù)據(jù)科學家下了這樣一個更精辟的定義:軟件工程師里統(tǒng)計學最好的,統(tǒng)計學家里編程能力最強的那些人,就是數(shù)據(jù)科學家。
下面進入正題,作為一個初創(chuàng)公司的項目主管,怎樣才能更好地應對數(shù)據(jù)科學挑戰(zhàn)呢,有如下幾條實踐指導。
第一步:理解數(shù)據(jù)科學的格局
首先需要明確的一點是,當前的數(shù)據(jù)科學、機器學習和 AI 作為一個獨立的行業(yè)都已經(jīng)具備了相當?shù)捏w量。利用各種供應商提供的各種平臺、工具和算法,我們幾乎可以解決所有應用程序的相關問題。
但這些工具和平臺,與真正的數(shù)據(jù)科學家是兩回事。事實上,目前所有的大公司都在競聘行業(yè)里頂尖的數(shù)據(jù)科學家。因此,對于那些專注于研究下一代的智能聊天機器人或者大數(shù)據(jù)分析應用的創(chuàng)業(yè)者來說,機會已經(jīng)不多了。
如果你的公司足夠幸運,已經(jīng)招到了一位珍貴的數(shù)據(jù)科學家,那就一定要讓他作為你的合伙人,共同規(guī)劃和執(zhí)行公司的項目。同時你需要明確的一點是,在構建和擴展應用程序的所有其他復雜功能方面,數(shù)據(jù)科學家們很多時候并不具備其他工程師的專業(yè)知識和經(jīng)驗。一定要讓數(shù)據(jù)科學家和工程師協(xié)同合作,共同參與項目的規(guī)劃,才能最大限度地確保成功。
那么,在缺少主題專家的情況下,項目主管要怎樣為其產品尋求有意義的數(shù)據(jù)科學驅動功能呢?這里推薦一個非常實用的方法:就像大多數(shù)其他產品的規(guī)劃流程一樣,做到理智的取舍。在當前豐富而強大的工具和平臺的幫助下,團隊可以實現(xiàn)幾乎任何想要的功能。因此,對項目主管來說,重點就在于確定真正核心的功能并平衡其影響。
第二步:最小化的可用數(shù)據(jù)產品(Minimum viable data products,MVDP)
創(chuàng)業(yè)圈流行這樣一個理念:開發(fā)產品時先做出一個簡單的原型——最小化的可用產品(Minimum Viable Product, MVP),然后通過測試并收集用戶的反饋,快速迭代,不斷修正產品,最終適應市場的需求,推出讓用戶滿意的產品。這一點放在數(shù)據(jù)產品上也同樣適用。
要做到 MVDP,有以下三點需要注意:
- 對客戶真正有價值:增強或加深他們與產品的關系;
- 可用和足夠的數(shù)據(jù):即使是最好的算法,也不能沒有數(shù)據(jù)去執(zhí)行;
- 實時性的交付:團隊是否可以利用現(xiàn)有的資源和現(xiàn)成的解決方案實現(xiàn)功能。
項目主管可以從產品特性討論開始,優(yōu)先考慮那些對客戶最有價值的特性。并且與工程師團隊(以及潛在的數(shù)據(jù)科學專業(yè)人員)一起討論,確定待實現(xiàn)的特性與現(xiàn)有的數(shù)據(jù)、資源是否匹配。
不要擔心縮小范疇,MVDP 本身的目標就是快速輸出一個對客戶有價值的原型產品。只要能證明這個原型有價值,后續(xù)可以再添加額外的復雜功能。這一點放在數(shù)據(jù)科學項目上尤其重要,因為數(shù)據(jù)產品在很大程度上就是要盡量防止過多的復雜性,以減少項目落空的機會。
第三步:制定對工程師友好的解決方案
當前,一般的工程師和產品團隊在實現(xiàn)產品性能方面都表現(xiàn)優(yōu)異,但是他們通常都需要一些工具包或者框架的幫助。數(shù)據(jù)科學家們提供了給定數(shù)據(jù)集的深層次的理解,提供了正確的工具/技術來幫助實現(xiàn)產品特性,并成功將這些工具和產品應用到產品研發(fā)的過程中??赡苡行﹦?chuàng)業(yè)公司目前并沒有自己的數(shù)據(jù)科學家,但可喜的是,現(xiàn)在互聯(lián)網(wǎng)上充滿了相關教程和學習資料,還有豐富的程序Demo和API接口,可以幫助這些公司實現(xiàn)數(shù)據(jù)科學的相關功能。
而且,目前幾乎所有的算法和技術都可以找到第三方實現(xiàn)好的現(xiàn)成的工具包,工程師團隊真正的研發(fā)重點應該是數(shù)據(jù)的準備和加載,訓練和選擇合適的模型/算法/工具,并將其成功應用在產品里。必須明確的一點是:團隊不應該完全從零開始構建所有東西,這是一種寶貴資源的浪費。
隨著 MVDP 的實現(xiàn),下面需要找到最實用的方法來實現(xiàn)產品特性。當然,需要首先明確的一點是:并不存在某個單一的工具或平臺適合所有產品。對此,我們給出以下幾條建議。
1. 通用的機器學習平臺和預測服務:Google Prediction API,Amazon Machine Learning API,Microsoft Azure Machine Learning API 以及 BigML。通過這些開放 API 接口,用戶可以將數(shù)據(jù)輸入到預先構建好的或者自定義的模型,實現(xiàn)快速測試,并合并到產品中。這種類型的服務非常適合于預測用戶行為,在大數(shù)據(jù)集中標記用戶和產品,以及對數(shù)據(jù)集進行優(yōu)先級排序等場景。
2. 特定用途的 AI 平臺:這一類的工具似乎發(fā)展勢頭強勁,初創(chuàng)公司可以直接接入這些平臺,然后通過云端計算實現(xiàn)各種各樣的創(chuàng)新功能。主要的供應商包括 IBM Watson(語音識別,圖像識別,翻譯)和 Google Cloud(語音,文字,圖像和其他服務),并且每天都有許多這一類的新興的初創(chuàng)公司涌現(xiàn)。
3. 博客,資源和社區(qū)討論:與大多數(shù)其他領域的發(fā)展一樣,互聯(lián)網(wǎng)提供了一個分享互助的基礎,初創(chuàng)公司可以相對容易地與其他團隊分享和交流他們的數(shù)據(jù)科學項目經(jīng)驗,并相互學習,取長補短。這里建議 KDnuggets 和 O’Reilly 這兩個社區(qū)。
這里還需要強調:無論借助哪種工具或者框架的幫助,項目主管都需要明確:始終聚焦于向客戶提供有價值的最小化的可行產品,然后其他所有的各項措施都是圍繞這一核心目標展開的。明確這一點,有助于保持數(shù)據(jù)科學的相關項目始終在可控的范圍內成長。
第四步:根據(jù)用戶反饋迭代產品
在做任何一個特性之前,都需要首先明確如何衡量客戶對該特性的滿意度。考慮到數(shù)據(jù)科學項目額外的復雜性,因此,在客戶反饋和特性迭代之間建立一個緊密的循環(huán)機制就變得更加重要。而且由于對數(shù)據(jù)和模型的巨大依賴,因此通常情況下研發(fā)人員很難排查為什么最終實現(xiàn)的特性沒有預想的效果好。另外,項目主管在制定每一輪迭代的預期工作量時都發(fā)揮著至關重要的作用,并且通常還需要針對一些計劃外的工作價值做出判斷。在某些極端的情況下,如果一個特性看起來需要太多的工作投入或者結果仍然不可預測,那么就有可能選擇完全放棄該特性。
值得注意的是:一個好的項目主管應該在客戶和數(shù)據(jù)之間保持一種勤奮的工作關系。當客戶實測一個數(shù)據(jù)科學驅動的新特性時,及時準確地考察來自這兩個來源的反饋將變得至關重要。
總結:重視數(shù)據(jù)科學
Slack的首席數(shù)據(jù)工程師 Josh Wills 表示:當前對許多公司而言,數(shù)據(jù)科學方面的投入只是其眾多產品投入的一部分。在大多是情況下,只需要一項或者兩項的投入起作用,就能支撐起整個產品。而且,數(shù)據(jù)科學的入門真的很難,他稱之為信仰的行為(an act of faith)。像Facebook、谷歌和亞馬遜這樣的巨頭公司,他們的發(fā)展規(guī)模其實早已超出了建立時的初衷,數(shù)據(jù)科學幾乎變成了所有業(yè)務的核心驅動力?,F(xiàn)在,機器學習和數(shù)據(jù)科學幾乎變成了所有大公司用來創(chuàng)造價值的主要工具,他們通過考察用戶體驗掌握先機,然后通過自動化的方法通過特定的產品使客戶的生活變得越來越便捷。
從實用的觀點來說,當下的項目主管應該要開始嘗試將數(shù)據(jù)科學的相關特性融入到產品中去。雖然趕超大公司可能仍然是一個不小的挑戰(zhàn),但我們需要聚焦于我們自己的目標客戶的實際需求,并盡一切可能的努力去提升他們的使用體驗。
譯者:恒亮
作者:Matthew Coffman
來源:http://www.leiphone.com/news/201703/ma4y2LGXMUk6Ncgh.html
本文來源于人人都是產品經(jīng)理合作媒體@雷鋒網(wǎng),作者@Matthew Coffman
- 目前還沒評論,等你發(fā)揮!