人工智能PM系列文章(二)PM要學(xué)會(huì)使用數(shù)據(jù)
本期和大家聊聊產(chǎn)品經(jīng)理在機(jī)器學(xué)習(xí)領(lǐng)域該如何理解數(shù)據(jù)、使用數(shù)據(jù)、以及面對(duì)大數(shù)據(jù)的治理需要具備的一些基本素質(zhì)。
機(jī)器學(xué)習(xí)三要素:
業(yè)內(nèi)公認(rèn)的機(jī)器學(xué)習(xí)三大要素:算法、計(jì)算能力、數(shù)據(jù)。
1、算法:隨著Google的Tensorflow的誕生,將算法迅速應(yīng)用到產(chǎn)品中的門檻大幅度降低。使用Tensorflow可以讓應(yīng)用型研究者將想法迅速運(yùn)用到產(chǎn)品中,也可以讓學(xué)術(shù)性研究者更直接地彼此分享代碼,從而提高科研產(chǎn)出率。因此,這個(gè)趨勢(shì)就類似當(dāng)年做網(wǎng)站設(shè)計(jì)還需要編寫復(fù)雜的代碼,而今天連一個(gè)不會(huì)編程的人都會(huì)做出精美的網(wǎng)站了。
2、計(jì)算能力:大公司會(huì)通過(guò)強(qiáng)大的云計(jì)算能力提供全行業(yè)的人工智能計(jì)算能力,而小公司無(wú)需搭建自己的計(jì)算平臺(tái),直接使用大公司提供的現(xiàn)成的云平臺(tái),即實(shí)現(xiàn)了可以用很少的硬件投入就可以進(jìn)行深度學(xué)習(xí)產(chǎn)品的開發(fā)。因此在這方面公司顯然也不是公司或產(chǎn)品可以建立門檻的方向。
3、數(shù)據(jù):數(shù)據(jù)在機(jī)器學(xué)習(xí)領(lǐng)域領(lǐng)域顯然已經(jīng)變成了兵家必爭(zhēng)之地,而且優(yōu)質(zhì)的數(shù)據(jù)可以幫助企業(yè)快速建立門檻。好的數(shù)據(jù)通常要比好的算法更重要,而且數(shù)據(jù)本身的屬性決定了應(yīng)用的機(jī)器學(xué)習(xí)算法是否合適。假設(shè)你的數(shù)據(jù)集夠大,那么不管你使用哪種算法可能對(duì)分類性能都沒太大影響。
如何理解數(shù)據(jù)
數(shù)據(jù)對(duì)于機(jī)器學(xué)習(xí)的重要性其實(shí)源于于機(jī)器學(xué)習(xí)的本質(zhì),在專家系統(tǒng)(expert system, ES)作為人工智能重要領(lǐng)域并廣泛應(yīng)用的年代,人們已經(jīng)發(fā)現(xiàn)專家系統(tǒng)的缺陷。
計(jì)算機(jī)無(wú)法在某些領(lǐng)域窮盡全世界所有該領(lǐng)域?qū)<业慕?jīng)驗(yàn)和智慧,且很多領(lǐng)域的專家也很難總結(jié)出處理問題的原因和規(guī)律,況且對(duì)于企業(yè)來(lái)說(shuō)在很多領(lǐng)域中通過(guò)創(chuàng)造專家系統(tǒng)解決問題的ROI也并不理想,因此出現(xiàn)了機(jī)器學(xué)習(xí)(Machine Learning, ML)。
如果說(shuō)專家系統(tǒng)是一種手把手式的填鴨式的教學(xué)方法,而機(jī)器學(xué)習(xí)更像一種在寺廟高僧傳授徒弟的方式,高僧對(duì)于武功和修行的提升通常是只可意會(huì)不能言傳的,因此通常要依賴“悟性”。徒弟只能通過(guò)長(zhǎng)期的實(shí)踐-碰壁-再實(shí)踐提升自身武功及悟性。機(jī)器學(xué)習(xí)就是憑借這樣一種內(nèi)在邏輯誕生的,尤其在某些判斷模式相對(duì)復(fù)雜但是結(jié)果明確的領(lǐng)域,機(jī)器比人強(qiáng)的事實(shí)已經(jīng)被廣泛證明,例如商品推薦、法律文書整理、投資策略的推薦等等。
實(shí)際上機(jī)器學(xué)習(xí)已經(jīng)成為數(shù)據(jù)分析技術(shù)的重要?jiǎng)?chuàng)新來(lái)源,而幾乎所有學(xué)科都要面對(duì)大量的數(shù)據(jù)分析任務(wù),但是機(jī)器學(xué)習(xí)只是數(shù)據(jù)挖掘的工具中的一種。
產(chǎn)品經(jīng)理在設(shè)計(jì)產(chǎn)品的時(shí)候除了要考慮到如何將機(jī)器學(xué)習(xí)利用到極致,還要解決數(shù)據(jù)分析過(guò)程中遇到的一些其他問題比如數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換等一系列關(guān)于數(shù)據(jù)治理的問題。
畢竟產(chǎn)品經(jīng)理不是算法工程師,除了關(guān)注算法和模型訓(xùn)練以外還要協(xié)調(diào)資源將數(shù)據(jù)怎么來(lái)的、哪些數(shù)據(jù)需要存、存多久、以及數(shù)據(jù)質(zhì)量遇到問題是是否需要數(shù)據(jù)治理工具去完善等等?,F(xiàn)實(shí)項(xiàng)目中沒有那么多理想情況,而且涉及到跨團(tuán)隊(duì)的協(xié)作。
因此這就要求產(chǎn)品經(jīng)理應(yīng)理解行業(yè)數(shù)據(jù)標(biāo)準(zhǔn),對(duì)行業(yè)標(biāo)準(zhǔn)數(shù)據(jù)類型、數(shù)據(jù)分布(數(shù)據(jù)在哪)、數(shù)據(jù)量預(yù)估、以及每種數(shù)據(jù)背后的含義了如指掌。只有理解了這些數(shù)據(jù)的維度,才能進(jìn)一步指導(dǎo)產(chǎn)品經(jīng)理去獲取行業(yè)優(yōu)質(zhì)數(shù)據(jù),并判斷是否需要搭建大數(shù)據(jù)架構(gòu)進(jìn)行對(duì)數(shù)據(jù)的處理。下面舉個(gè)機(jī)器學(xué)習(xí)和大數(shù)據(jù)架構(gòu)結(jié)合的案例:
Eagle是eBay開源的分布式實(shí)時(shí)安全監(jiān)控方案。通過(guò)離線訓(xùn)練模型和實(shí)時(shí)流引擎監(jiān)控,可以立即監(jiān)測(cè)出對(duì)敏感數(shù)據(jù)的訪問或惡意的操作,并立即采取應(yīng)對(duì)措施。
Eagle需要被部署在多個(gè)大型Hadoop集群上,這些機(jī)群擁有數(shù)百PB數(shù)據(jù)量。如果你是這個(gè)產(chǎn)品的產(chǎn)品經(jīng)理你至少要考慮到產(chǎn)品的這三個(gè)層面:視覺展現(xiàn)、數(shù)據(jù)處理分析、采集和存儲(chǔ)數(shù)據(jù)。
另外,許多傳統(tǒng)行業(yè)的數(shù)據(jù)積累在規(guī)范程度和流轉(zhuǎn)效率上遠(yuǎn)未達(dá)到可充分發(fā)揮人工智能技術(shù)潛能的程度,產(chǎn)品經(jīng)理要識(shí)別這方面的風(fēng)險(xiǎn),產(chǎn)品的占領(lǐng)市場(chǎng)先機(jī)固然重要,但過(guò)早的進(jìn)入市場(chǎng)也可能有巨大的投資風(fēng)險(xiǎn)。
產(chǎn)品經(jīng)理該如何利用數(shù)據(jù)設(shè)計(jì)機(jī)器學(xué)習(xí)產(chǎn)品
1、當(dāng)需求確定后,產(chǎn)品經(jīng)理應(yīng)該判斷是否有質(zhì)量足夠好的數(shù)據(jù)作為訓(xùn)練集來(lái)完成對(duì)模型的訓(xùn)練,數(shù)據(jù)的質(zhì)量決定了模型的訓(xùn)練效果能否滿足用戶需求,甚至決定了產(chǎn)品經(jīng)理對(duì)產(chǎn)品設(shè)定的目標(biāo)是否能夠?qū)崿F(xiàn)。
產(chǎn)品經(jīng)理應(yīng)該明確所設(shè)計(jì)的功能目標(biāo)是否明確且容易判斷和量化,越明確就越容易被自動(dòng)標(biāo)記。越容易被自動(dòng)標(biāo)記就越容易幫助機(jī)器快速進(jìn)行學(xué)習(xí)和建模,即功能的實(shí)現(xiàn)成本較低且比較容易實(shí)現(xiàn)較好的效果。
例如在某些領(lǐng)域中就天然帶有閉環(huán)的、自動(dòng)標(biāo)注的數(shù)據(jù):基于互聯(lián)網(wǎng)平臺(tái)的廣告平臺(tái)可以自動(dòng)根據(jù)用戶在頁(yè)面上的點(diǎn)擊動(dòng)作及后續(xù)操作,收集到第一手轉(zhuǎn)化率數(shù)據(jù),而這個(gè)轉(zhuǎn)化率數(shù)據(jù)反過(guò)來(lái)又可作為關(guān)鍵特征,幫助AI系統(tǒng)進(jìn)一步學(xué)習(xí)。這種從應(yīng)用本身收集數(shù)據(jù)(訓(xùn)練集不需要外部采集),再用數(shù)據(jù)訓(xùn)練模型,用模型提高應(yīng)用性能(容易判斷和容易量化的性能目標(biāo))的閉環(huán)模式更加高效。
2、在設(shè)計(jì)機(jī)器學(xué)習(xí)產(chǎn)品的時(shí)候產(chǎn)品經(jīng)理應(yīng)該轉(zhuǎn)變傳統(tǒng)產(chǎn)品設(shè)計(jì)的思路和邏輯,過(guò)去產(chǎn)品經(jīng)理的設(shè)計(jì)邏輯是畫原型、PRD文檔交付研發(fā),研發(fā)會(huì)按照原型設(shè)計(jì)的去開發(fā),頁(yè)面都是設(shè)計(jì)好了的,頁(yè)面上有幾個(gè)按鈕,每個(gè)按鈕的交互反饋是什么,每種用戶的數(shù)據(jù)、頁(yè)面權(quán)限都是設(shè)計(jì)好的。
而在機(jī)器學(xué)習(xí)產(chǎn)品設(shè)計(jì)中,可能就沒那么多事先就能確定好的事情了。比如產(chǎn)品的目標(biāo)是分析導(dǎo)致某超市銷售業(yè)績(jī)提升的最重要的因素,并根據(jù)每天搜集到的數(shù)據(jù)輸入到訓(xùn)練好的模型中預(yù)測(cè)即將到來(lái)的一周的銷售業(yè)績(jī)。
那么產(chǎn)品經(jīng)理在設(shè)計(jì)這樣的數(shù)據(jù)分析功能的時(shí)候是無(wú)法在訓(xùn)練集都沒輸入并訓(xùn)練的時(shí)候給出的原型的,整個(gè)頁(yè)面的元素大部分是又訓(xùn)練出來(lái)的結(jié)果決定的。而最終該功能能否成功不是依賴頁(yè)面開發(fā)工程師,而很大程度上依賴于算法團(tuán)隊(duì)是否能獲得足夠優(yōu)質(zhì)的數(shù)據(jù)并訓(xùn)練比較精準(zhǔn)的模型進(jìn)行預(yù)測(cè)分析。這也是為什么需要產(chǎn)品經(jīng)理和算法團(tuán)隊(duì)進(jìn)行充分的交流,因?yàn)闄C(jī)器學(xué)習(xí)產(chǎn)品的設(shè)計(jì)往往當(dāng)目標(biāo)定好后,其他的工作不是人說(shuō)的算,而是數(shù)據(jù)和算法說(shuō)的算,一味死板的設(shè)計(jì)產(chǎn)品只能讓技術(shù)團(tuán)隊(duì)陷于掙扎。
3、測(cè)試算法,產(chǎn)品經(jīng)理是端到端負(fù)責(zé)人,一個(gè)功能的算法做出來(lái)了,但實(shí)際效果(或準(zhǔn)確度)是需要產(chǎn)品經(jīng)理親自去檢驗(yàn)的,這不僅需要大量生產(chǎn)數(shù)據(jù)的監(jiān)測(cè),而且有些時(shí)候是需要用戶認(rèn)可才行。
就拿上面那個(gè)預(yù)測(cè)超市業(yè)績(jī)的例子來(lái)說(shuō),產(chǎn)品最終要實(shí)現(xiàn)的是幫助超市管理者能夠有的放矢的進(jìn)行管理決策,那么就需要產(chǎn)品經(jīng)理實(shí)際參與到預(yù)測(cè)結(jié)果和實(shí)際效果的比對(duì)中,只有獲得了用戶的認(rèn)可,才是產(chǎn)品設(shè)計(jì)的圓滿。而如果效果不好,則需要產(chǎn)品經(jīng)理想辦法獲得更多維度的數(shù)據(jù)進(jìn)行訓(xùn)練,必要的時(shí)候需要聘請(qǐng)行業(yè)專家參與到算法調(diào)優(yōu)中。
最后,本文只是針對(duì)數(shù)據(jù)問題討論的冰山一角,篇幅有限也只能拋磚引玉式的提出一些問題和觀點(diǎn)。更多有關(guān)數(shù)據(jù)治理的內(nèi)容將會(huì)在后續(xù)系列文章中詳細(xì)描述。希望你能持續(xù)關(guān)注我的人工智能產(chǎn)品經(jīng)理系列文章。
作者:特里,頭條號(hào):“人工智能產(chǎn)品設(shè)計(jì)”。畢業(yè)于University of Melbourne,人工智能領(lǐng)域產(chǎn)品經(jīng)理,專注于AI產(chǎn)品設(shè)計(jì)、大數(shù)據(jù)分析、AI技術(shù)商用化研究和實(shí)踐。
本文由 @特里 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自PEXELS,基于CC0協(xié)議
- 目前還沒評(píng)論,等你發(fā)揮!