吳恩達(dá)新演講:AI正改變行業(yè)格局,公司的壁壘非算法而是數(shù)據(jù)
在AI公司里,產(chǎn)品經(jīng)理在和工程師溝通的時(shí)候,需要學(xué)會(huì)基于數(shù)據(jù),來做產(chǎn)品的迭代升級。
1.人工智能的應(yīng)用和價(jià)值
吳恩達(dá)依然以AI是新電力開場,并舉了一個(gè)例子。
AI技術(shù)的經(jīng)濟(jì)貢獻(xiàn)多數(shù)來自監(jiān)督學(xué)習(xí),也就是學(xué)習(xí)從A到B,從輸入到輸出的映射。比如說,輸入一張照片,讓機(jī)器學(xué)會(huì)判斷這張照片是不是你,輸出0或1。
最賺錢的AI應(yīng)用是在線廣告。在這個(gè)例子中,輸入是廣告和用戶信息,輸出是用戶會(huì)不會(huì)點(diǎn)擊這個(gè)廣告(還是0或1)。
監(jiān)督學(xué)習(xí)還可以應(yīng)用在消費(fèi)金融領(lǐng)域,輸入貸款申請信息,輸出用戶是否會(huì)還款。
過去幾年里,機(jī)器學(xué)習(xí)經(jīng)歷了迅速的發(fā)展,越來越擅長學(xué)習(xí)這類A到B的映射,創(chuàng)造了大規(guī)模的經(jīng)濟(jì)價(jià)值。同時(shí),AI的進(jìn)步也體現(xiàn)在監(jiān)督學(xué)習(xí)的輸出不再限于0或1的數(shù)字。
再次舉例:語音識別的任務(wù),也是一種端到端的學(xué)習(xí)。擁有足夠的數(shù)據(jù),語音識別就能達(dá)到很好的效果。亞馬遜Alexa、蘋果Siri、百度DuerOS等等依靠AI算法和數(shù)據(jù)來達(dá)到良好的效果。
監(jiān)督學(xué)習(xí)的缺點(diǎn)是它需要大量的標(biāo)注數(shù)據(jù),這影響了它的普及。
為什么神經(jīng)網(wǎng)絡(luò)已經(jīng)存在了這么多年,AI卻近年來才開始快速發(fā)展?
上圖中,橫軸是數(shù)據(jù)量,縱軸是算法的性能。
隨著數(shù)據(jù)量的增加,傳統(tǒng)機(jī)器學(xué)習(xí)算法的性能并沒有明顯提升,而神經(jīng)網(wǎng)絡(luò)的性能,會(huì)有比較明顯的提升,神經(jīng)網(wǎng)絡(luò)越大,性能的提升就越明顯。
為了達(dá)到最佳的性能,你需要:大量數(shù)據(jù)以及大型的神經(jīng)網(wǎng)絡(luò)。
2機(jī)器學(xué)習(xí)的趨勢以及算法如何創(chuàng)造價(jià)值
目前,創(chuàng)造最多價(jià)值的還是監(jiān)督學(xué)習(xí)。除此之外,遷移學(xué)習(xí)技術(shù)正在創(chuàng)造更多的經(jīng)濟(jì)價(jià)值。比如在醫(yī)學(xué)影像診斷上,遷移學(xué)習(xí)技術(shù)利用數(shù)據(jù)創(chuàng)造了不錯(cuò)的識別效果。
非監(jiān)督學(xué)習(xí),在自然語言處理上更具商業(yè)價(jià)值。
強(qiáng)化學(xué)習(xí)也很有意思,我認(rèn)為,強(qiáng)化學(xué)習(xí)的火爆和商業(yè)化有點(diǎn)不成比例。
強(qiáng)化學(xué)習(xí)對數(shù)據(jù)的需求程度,甚至比監(jiān)督學(xué)習(xí)更嚴(yán)重,特別是強(qiáng)化學(xué)習(xí)算法很難獲取到足夠的數(shù)據(jù)。又舉例子:AI+游戲中,強(qiáng)化學(xué)習(xí)表現(xiàn)很好,這是因?yàn)樵陔娮佑螒蛑?,算法可以重?fù)玩無限次,獲取無限的數(shù)據(jù)。
在機(jī)器人領(lǐng)域,使用強(qiáng)化學(xué)習(xí)來建立模擬器,相當(dāng)于能讓強(qiáng)化學(xué)習(xí)agent在其中模擬無人車、人形機(jī)器人,重復(fù)無限次游戲。在游戲和機(jī)器人領(lǐng)域之外,強(qiáng)化學(xué)習(xí)應(yīng)用到商業(yè)中還有很長的路要走。
現(xiàn)在,監(jiān)督學(xué)習(xí)、遷移學(xué)習(xí)、非監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)這四類算法所創(chuàng)造的經(jīng)濟(jì)價(jià)值是遞減的。
另一個(gè)值得關(guān)注的是,機(jī)器學(xué)習(xí)依靠結(jié)構(gòu)化數(shù)據(jù),比非結(jié)構(gòu)化數(shù)據(jù)創(chuàng)造了更多的經(jīng)濟(jì)機(jī)制。
舉個(gè)結(jié)構(gòu)化數(shù)據(jù)的例子,比如說你的數(shù)據(jù)庫記錄了用戶的交易情況,誰什么時(shí)候買了什么東西,誰什么時(shí)間給誰發(fā)了信息,這就是結(jié)構(gòu)化數(shù)據(jù)。而像圖像、音頻、自然語言等等,就是非結(jié)構(gòu)化數(shù)據(jù)。
在前面談到的幾類學(xué)習(xí)算法中,單是監(jiān)督學(xué)習(xí)就已經(jīng)為公司、創(chuàng)業(yè)者創(chuàng)造了大量的經(jīng)濟(jì)價(jià)值和機(jī)會(huì)。
3如何做人工智能產(chǎn)品
AI的崛起正改變著公司的競爭格局。公司的壁壘不再是算法,而是數(shù)據(jù)。
想要打造一個(gè)AI產(chǎn)品,如圖:
讓算法利用足夠的數(shù)據(jù),使得產(chǎn)品運(yùn)行起來,然后通過產(chǎn)品來獲取用戶,用戶在提供更多的數(shù)據(jù)……周而復(fù)始。
又舉例:搜索公司。搜索公司有著大量的數(shù)據(jù),顯示如果用戶搜了這個(gè)詞,就會(huì)傾向于點(diǎn)哪個(gè)鏈接。
我很清楚該如何構(gòu)建搜索算法,但是如果沒有大型搜索公司那樣的數(shù)據(jù)集,簡直難以想象小團(tuán)隊(duì),如何構(gòu)建一個(gè)同樣優(yōu)秀的搜索引擎。這些數(shù)據(jù)資產(chǎn)構(gòu)建了兼顧的壁壘。
工程師們還需要明白:AI的影響,比監(jiān)督學(xué)習(xí)廣泛得太多。日常的AI包括好幾類工具:比如機(jī)器學(xué)習(xí)、圖模型、規(guī)劃算法、知識圖譜。
人們的關(guān)注點(diǎn)集中在機(jī)器學(xué)習(xí)和深度學(xué)習(xí),很大程度上是因?yàn)槠渌ぞ叩陌l(fā)展速度很緩慢。
計(jì)算機(jī),或者說算法是怎樣知道該做什么的呢?它依靠兩個(gè)來源,一是數(shù)據(jù),二是人工。
比如說在線廣告,我們有那么多的數(shù)據(jù),不需要太多的人工,深度學(xué)習(xí)算法就能學(xué)得很好。但是在醫(yī)療領(lǐng)域,數(shù)據(jù)量就很少,可能只有幾百個(gè)樣例,這時(shí)就需要大量的人工,比如說用圖模型來引入人類知識。
很多工程師想要進(jìn)入AI領(lǐng)域,很多人會(huì)去上在線課程,但是有一個(gè)學(xué)習(xí)途徑被嚴(yán)重忽視了:讀論文,重現(xiàn)其中的研究。
當(dāng)你讀了足夠多的論文,實(shí)踐了足夠多的算法,它們都會(huì)轉(zhuǎn)化為你的知識和想法。
轉(zhuǎn)型機(jī)器學(xué)習(xí)工程師,我推薦的是:學(xué)習(xí)諸如deeplearning.ai的機(jī)器學(xué)習(xí)課程來打好基礎(chǔ),然后讀論文并復(fù)現(xiàn)其中的結(jié)果,另外,還要通過參加各種的人工智能活動(dòng),來鞏固自己的基礎(chǔ)。
4如何打造人工智能公司
從大約25年前開始,我們見證了互聯(lián)網(wǎng)時(shí)代的崛起。
我從那個(gè)時(shí)代學(xué)到了:商場 + 網(wǎng)站 ≠ 互聯(lián)網(wǎng)公司
我認(rèn)識一家大型零售公司的CIO,有一次CEO對他說:我們在網(wǎng)上賣東西,亞馬遜也在網(wǎng)上賣東西,我們是一樣的。
這是不對的。
互聯(lián)網(wǎng)公司是如何定義的呢?不是看你有沒有網(wǎng)站,而是看做不做A/B測試、能不能快速迭代、是否由工程師和產(chǎn)品經(jīng)理來做決策。這才是互聯(lián)網(wǎng)公司的精髓。
在AI時(shí)代,我們同樣要明確:
傳統(tǒng)科技公司 + 機(jī)器學(xué)習(xí)/神經(jīng)網(wǎng)絡(luò) ≠ AI公司
公司里有幾個(gè)人在用神經(jīng)網(wǎng)絡(luò),并不能讓你們成為一家AI公司,要有更深層的基礎(chǔ)。
AI公司傾向于策略性地獲取數(shù)據(jù)。
我曾經(jīng)這么做過:在一個(gè)地區(qū)發(fā)布產(chǎn)品,為了在另一個(gè)地區(qū)發(fā)布產(chǎn)品而獲取數(shù)據(jù),這個(gè)產(chǎn)品又是為了在下一個(gè)地區(qū)發(fā)布產(chǎn)品來獲取數(shù)據(jù)用的,如此循環(huán)。而所有產(chǎn)品加起來,都是為了獲取數(shù)據(jù)驅(qū)動(dòng)一個(gè)更大的目標(biāo)。
像Google和百度這樣的大型AI公司,都有著非常復(fù)雜的策略,為幾年后做了充分的準(zhǔn)備。
第二點(diǎn)是比較戰(zhàn)術(shù)性的,你現(xiàn)在就可以這么做:AI公司通常有統(tǒng)一的數(shù)據(jù)庫。
很多公司有很多數(shù)據(jù)庫,但很分散,如果工程師想把這些數(shù)據(jù)放在一起來做點(diǎn)什么,可能需要和50個(gè)不同的人來溝通。
所以我認(rèn)為建立一個(gè)統(tǒng)一的數(shù)據(jù)庫,所有的數(shù)據(jù)都存儲(chǔ)在一起是一種很好的策略。
另外,自動(dòng)化和定制招聘需求也是AI公司的重要特征。
比如在移動(dòng)互聯(lián)網(wǎng)時(shí)代,產(chǎn)品經(jīng)理會(huì)寫PRD:
然后工程師去實(shí)現(xiàn)它,整個(gè)流程很容易理清楚。
但是假設(shè)在AI時(shí)代,我們要做一個(gè)聊天機(jī)器人,這時(shí)候如果產(chǎn)品經(jīng)理畫個(gè)線框圖說:這是頭像,這是聊天氣泡,這樣并不能解決問題。
聊天氣泡長什么樣不重要,我需要知道的是,這個(gè)聊天機(jī)器人要說什么話。線框圖對聊天機(jī)器人項(xiàng)目來說沒什么用。
如果一個(gè)產(chǎn)品經(jīng)理畫了個(gè)無人車的線框圖,說“我們要做個(gè)這個(gè)”,更是沒什么用。
在AI公司里,產(chǎn)品經(jīng)理在和工程師溝通的時(shí)候,需要學(xué)會(huì)基于數(shù)據(jù),來做產(chǎn)品的迭代升級。
End.
作者:吳恩達(dá)
來源:http://www.36dsj.com/archives/97430
本文來源于人人都是產(chǎn)品經(jīng)理合作媒體@36大數(shù)據(jù),作者@吳恩達(dá)
題圖來自,基于CC0協(xié)議
- 目前還沒評論,等你發(fā)揮!