成為AI產(chǎn)品經(jīng)理之前,可以先讀下這篇文章
本文致力于讓完全沒有學(xué)習(xí)過AI的朋友可以輕松讀懂,enjoy~
先說一下,你閱讀本文可以得到什么。你能得到AI的理論知識(shí)框架;你能學(xué)習(xí)到如何成為一個(gè)AI產(chǎn)品經(jīng)理并且了解到AI產(chǎn)品經(jīng)理如何在工作中發(fā)揮作用,以及AI產(chǎn)品經(jīng)理需要從哪些方面鍛煉能力。最重要的是,通過本文,一切都特別快(手打滑稽)。
PS:目前只針對(duì)弱人工智能(我喜歡簡(jiǎn)稱,此處我們簡(jiǎn)稱為“弱智”)進(jìn)行學(xué)習(xí)。
首先我們必須要掌握的是AI的專業(yè)知識(shí)框架,然后了解AI的市場(chǎng)情況,最后要明白AI產(chǎn)品經(jīng)理的工作流程及在項(xiàng)目的價(jià)值體現(xiàn)。本文致力于讓完全沒有學(xué)習(xí)過AI的朋友可以輕松讀懂,獲取干貨。即使你不能完整理解AI也沒關(guān)系,最起碼看完本文之后你可以完美裝13,文末會(huì)有特別的裝13技巧送給你。
一、AI是什么
1. AI的定義
凡是通過機(jī)器學(xué)習(xí),實(shí)現(xiàn)機(jī)器替代人力的技術(shù),就是AI。機(jī)器學(xué)習(xí)是什么呢?機(jī)器學(xué)習(xí)是由AI科學(xué)家研發(fā)的算法模型,通過數(shù)據(jù)灌輸,學(xué)習(xí)數(shù)據(jù)中的規(guī)律并總結(jié),即模型內(nèi)自動(dòng)生成能表達(dá)(輸入、輸出)數(shù)據(jù)之間映射關(guān)系的特定算法。這整個(gè)過程就是機(jī)器學(xué)習(xí)。
AI模型是個(gè)“中間件”,不能直接與用戶完成交互,所以AI還是需要借助傳統(tǒng)的應(yīng)用程序,應(yīng)用程序直接與用戶進(jìn)行交互,同時(shí)提交輸入數(shù)據(jù)給模型,模型處理后返回輸出數(shù)據(jù)給應(yīng)用程序,應(yīng)用程序再轉(zhuǎn)化為合適的呈現(xiàn)方式反饋給用戶。
AI解決方案比互聯(lián)網(wǎng)解決方案有什么優(yōu)勢(shì):再也不需要去歸納總結(jié)知識(shí)和規(guī)律,然后進(jìn)行越來越復(fù)雜的編程,只需要用數(shù)據(jù)喂養(yǎng)機(jī)器,讓機(jī)器完成所有工作。而且傳統(tǒng)的互聯(lián)網(wǎng)解決方案遇到需要求變時(shí),是個(gè)頭痛的事,因?yàn)橹苯幼尮こ處煂?duì)程序、算法進(jìn)行修改的過程中會(huì)需要考慮很多既有程序帶來的限制及改動(dòng)后的未知風(fēng)險(xiǎn)(同時(shí)也容易造成人力成本更高),而AI模型是可以遷移、疊加利用的,所以需求變化時(shí),少了很多既有積累的東西帶來的問題。
2. AI的根基
AI的根基從數(shù)學(xué)理論開始,數(shù)學(xué)理論(包括:線性代數(shù)、概率論、統(tǒng)計(jì)學(xué)、微積分)的基礎(chǔ)上我們得以有機(jī)器學(xué)習(xí)理論,機(jī)器學(xué)習(xí)理論(包括:監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、遷移學(xué)習(xí)、深度學(xué)習(xí))的基礎(chǔ)上我們得以有基礎(chǔ)技術(shù),基礎(chǔ)技術(shù)(包括:機(jī)器學(xué)習(xí)ML、深度學(xué)習(xí)DL、語音識(shí)別ASR、語音合成TTS、計(jì)算機(jī)視覺CV、機(jī)器視覺MV、自然語言理解NLU、自然語言處理NLP、專家系統(tǒng))的基礎(chǔ)上AI應(yīng)用得以實(shí)現(xiàn)。
特別提醒:不僅是數(shù)學(xué)理論,物理理論也是AI的根基。在更深度的AI建模等理論需求中,很多所謂的“數(shù)學(xué)理論”其實(shí)原型來自于“物理理論”。比如熵的概念,比如多維空間的概念,都是出于物理學(xué)中的概念。
3. 機(jī)器學(xué)習(xí)理論詳解及算法模型介紹
關(guān)于模型算法的結(jié)果導(dǎo)向理解:
- 對(duì)數(shù)據(jù)進(jìn)行分類;
- 找到輸入數(shù)據(jù)與輸出數(shù)據(jù)之間的規(guī)律。
機(jī)器學(xué)習(xí)方式有多種,每種機(jī)器學(xué)習(xí)方式又有多種算法。機(jī)器學(xué)習(xí)方式可以配合利用,且各種算法模型也可以結(jié)合利用。
機(jī)器學(xué)習(xí)的抽象流程是:
- 訓(xùn)練機(jī)器階段,讓模型對(duì)輸入數(shù)據(jù)進(jìn)行分類,且找到規(guī)律;
- 測(cè)試階段,數(shù)據(jù)進(jìn)入模型時(shí),模型對(duì)數(shù)據(jù)進(jìn)行分類,每一個(gè)測(cè)試數(shù)據(jù)都?xì)w類到訓(xùn)練數(shù)據(jù)類別中對(duì)應(yīng)的一個(gè)類別,然后根據(jù)訓(xùn)練找到的規(guī)律計(jì)算出輸出值(即答案);
- 欠擬合或者過擬合的情況下,要清洗訓(xùn)練數(shù)據(jù)、調(diào)整參數(shù)以及重復(fù)訓(xùn)練;達(dá)到最佳擬合后,機(jī)器學(xué)習(xí)完成。
3.1 監(jiān)督學(xué)習(xí)
通俗解釋:準(zhǔn)備好許多組問題和對(duì)應(yīng)答案,然后對(duì)機(jī)器說:當(dāng)你看到這個(gè)問題的時(shí)候,你就告訴人家這個(gè)答案。多次重復(fù)這樣的訓(xùn)練,然后機(jī)器從每一次的訓(xùn)練問題和對(duì)應(yīng)答案中找到了其中的規(guī)律(即算法)。然后你跟你朋友吹噓說,我的機(jī)器機(jī)靈得跟猴似的,不信你問它問題。你這位朋友開始提一大堆問題,提的問題大可以跟你訓(xùn)練的問題不同,機(jī)器人只是根據(jù)自己之前總結(jié)的規(guī)律推測(cè)出答案給對(duì)方。如果發(fā)現(xiàn)機(jī)器人說出的答案中錯(cuò)誤太多,那你就要修理修理它,再重新用更豐富的有標(biāo)記答案的問題訓(xùn)練一番,直到你的機(jī)器被人提問時(shí)回答準(zhǔn)確率特別高,達(dá)到你的期望了。這時(shí)候你就可以放心的跟你朋友炫耀:我的機(jī)器機(jī)靈得跟猴似的。
專業(yè)解釋:準(zhǔn)備樣本(樣本通常準(zhǔn)備兩組:訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)),先將訓(xùn)練數(shù)據(jù)(即標(biāo)記樣本)給到機(jī)器,同時(shí)提供標(biāo)準(zhǔn)答案(有答案的樣本數(shù)據(jù)屬于“標(biāo)記樣本”),機(jī)器盡量從訓(xùn)練數(shù)據(jù)中找到因變量和自變量之間的關(guān)系,讓自己推測(cè)的答案盡量跟標(biāo)準(zhǔn)答案靠近。訓(xùn)練過程中機(jī)器嘗試生成我們需要的算法,這個(gè)算法就是我們要機(jī)器學(xué)習(xí)出來的結(jié)果。然后我們給機(jī)器測(cè)試樣本(測(cè)試數(shù)據(jù)),不提供標(biāo)準(zhǔn)答案,看機(jī)器推理出答案的準(zhǔn)確率怎么樣,如果準(zhǔn)確率太低(欠擬合),那我們就要調(diào)整模型的參數(shù),并且再訓(xùn)練機(jī)器,接著又用測(cè)試數(shù)據(jù)測(cè)試,直到機(jī)器達(dá)到了我們期望的準(zhǔn)確率。
抽象一個(gè)最簡(jiǎn)單的邏輯公式:線性代數(shù)y=kx。我們提供n組x值及對(duì)應(yīng)y值作為訓(xùn)練數(shù)據(jù),模型經(jīng)過計(jì)算推測(cè)出k值(推測(cè)出k值這個(gè)過程我們叫做“回歸”),然后我們?cè)儆胢組測(cè)試數(shù)據(jù),但是此時(shí)只輸入x值,看機(jī)器得出的y值是否跟我們已知的正確答案y值是否相同。當(dāng)有多個(gè)緯度的特征時(shí),應(yīng)該抽象公式應(yīng)該是y=kx1+kx2+kx3,或者y=k1x1+k2x2+k3x3。當(dāng)然還有可能要考慮其他一些參數(shù),此時(shí)公式應(yīng)該為y=kx1+kx2+kx3+b,或y=k1x1+k2x2+k3x3+b。參數(shù)b是我們的AI工程師可以直接調(diào)整的,以便讓機(jī)器訓(xùn)練的結(jié)果最接近我們想要的結(jié)果。
監(jiān)督學(xué)習(xí)的算法分類:
(1)KNN臨近算法
在訓(xùn)練階段時(shí),機(jī)器將訓(xùn)練數(shù)據(jù)進(jìn)行分類(根據(jù)數(shù)據(jù)的feature,即數(shù)據(jù)的特征)。(邏輯推理出,在某些情況下模型可以找出來的數(shù)據(jù)之間的映射不止一條,即可能每一類數(shù)據(jù)會(huì)有一個(gè)映射關(guān)系。)當(dāng)測(cè)試數(shù)據(jù)輸入時(shí),機(jī)器會(huì)根據(jù)輸入數(shù)據(jù)的特征判斷該輸入數(shù)據(jù)跟哪一類的訓(xùn)練數(shù)據(jù)為同一類,在此判斷基礎(chǔ)上,機(jī)器便決定用哪一個(gè)映射關(guān)系來推測(cè)當(dāng)下輸入測(cè)試數(shù)據(jù)對(duì)應(yīng)的輸出數(shù)據(jù)(即答案)。機(jī)器是如何判斷測(cè)試時(shí)的輸入數(shù)據(jù)更接近哪一類訓(xùn)練數(shù)據(jù)的呢?用數(shù)學(xué)邏輯解釋就是,模型內(nèi)是一個(gè)多維空間,有一個(gè)多維坐標(biāo),每一緯是一個(gè)特征,當(dāng)一個(gè)訓(xùn)練數(shù)據(jù)輸入時(shí),該數(shù)據(jù)坐落在坐標(biāo)上某一點(diǎn),訓(xùn)練數(shù)據(jù)量大了之后,模型里的坐標(biāo)上有無數(shù)點(diǎn)。當(dāng)測(cè)試數(shù)據(jù)輸入后,根據(jù)測(cè)試數(shù)據(jù)的特征在坐標(biāo)上為它找到一個(gè)點(diǎn),機(jī)器會(huì)找與該點(diǎn)歐式距離最近的點(diǎn)(訓(xùn)練數(shù)據(jù)的點(diǎn))是哪一個(gè),并且將該點(diǎn)視為與找到的距離最近的訓(xùn)練數(shù)據(jù)的點(diǎn)為同一類。
舉個(gè)栗子:Mary喜歡玩探探,在她眼里,探探里的男銀分3類。第一類是不喜歡,左劃;第二類是喜歡,右劃;第三類是超級(jí)喜歡,點(diǎn)星星。第一類男銀的共同點(diǎn)是單眼皮、低鼻梁、禿頂、穿安踏;第二類的共同點(diǎn)是雙眼皮、高鼻梁、茂密的頭發(fā),穿西裝;第三類的共同點(diǎn)是帶名牌手表,照片旁邊有一輛跑車。AI了解Mary后,開始為Mary把關(guān)。當(dāng)AI看到一個(gè)男銀上探探,就會(huì)看這個(gè)男銀是否單眼皮,鼻梁接近于高還是低,頭發(fā)多少,著裝幼稚還是成熟,然后將這個(gè)男銀為第一類或者第二類,第一類的直接幫Mary劃掉,第二類的直接幫Mary點(diǎn)喜歡。還有,當(dāng)AI看到一個(gè)男銀帶名牌表,有豪車,直接幫Mary點(diǎn)一個(gè)超級(jí)喜歡。然后Mary不用那么累地全部都要點(diǎn)一遍,AI幫她選的人她都挺滿意,她一臉的滿足。
(2)決策樹ID3算法
基于“決策樹”的理論的一種算法。根據(jù)數(shù)據(jù)特征進(jìn)行分支,直到不可再分支,此時(shí)決策樹成形,數(shù)據(jù)也被分出一類來,成形的一個(gè)決策樹表現(xiàn)了這一類數(shù)據(jù)的所有特征。
示意圖(Jennifer去相親):
該決策樹形成后(一條分枝將特征消化完之后),我們視滿足該條分枝上所有特征的為同一類人(即我們分出了一類數(shù)據(jù))。憑經(jīng)驗(yàn)推測(cè),這類人就是Jennifer最后選擇的結(jié)婚對(duì)象。(如果你不知道我指的是哪一條,那你這輩子一定都找不到老婆)
決策樹ID3算法與KNN算法的區(qū)別在于:KNN算法需要始終保存并持續(xù)使用所有訓(xùn)練數(shù)據(jù),決策樹ID3算法完成決策樹之后,可以不再保存所有的訓(xùn)練數(shù)據(jù)了(可以清清內(nèi)存),只需要將決策樹模型保留下來,便可以對(duì)新數(shù)據(jù)進(jìn)行高準(zhǔn)確率地分類。
(3)logistic邏輯回歸算法
當(dāng)特征和結(jié)果不滿足線性時(shí)(函數(shù)大于一次方時(shí)),就可以用邏輯回歸算法。邏輯回歸是一個(gè)非線性模型,它的因變量(x)跟線性回歸函數(shù)不相同。邏輯回歸同樣用來解決分類問題,呈二項(xiàng)分布(示意圖1),它只輸出兩種結(jié)果,0或1(實(shí)際情況是輸出為0~0.5,或0.5~1,小于0.5取值0,大于等于0.5取值1),0和1分別代表兩個(gè)類別。作為產(chǎn)品經(jīng)理,我們不需要去理解模型內(nèi)部是怎么回事(反正我目前也沒看懂模型內(nèi)部到底怎么回事),我們只需要了解,當(dāng)特征和結(jié)果,即X與Y之間的關(guān)系不滿足線性關(guān)系(函數(shù)大于一次方),就可以利用邏輯回歸算法,算法得出的值約等于1或約等于0,約等于1時(shí)該輸入數(shù)據(jù)屬于一類,約等于0時(shí)該輸入數(shù)據(jù)屬于另一類?;蛟S以后在實(shí)戰(zhàn)中,你的AI工程師搭檔會(huì)跟你講解,看了這篇文章,你在聽你的AI工程師解釋的時(shí)候不會(huì)茫然吧。
邏輯回歸的基礎(chǔ)公式:
示意圖1:
(4)支持向量機(jī)SVM
主要優(yōu)勢(shì)就是可以判斷到分類是否正確。
先給大家舉一個(gè)例,當(dāng)我們要分割一個(gè)平面,會(huì)用一條線,即分割二維數(shù)據(jù)用一維數(shù)據(jù);如果我們要分割一個(gè)立體空間,會(huì)用一個(gè)面,即分割三維數(shù)據(jù)用二維數(shù)據(jù)。理解例子后,就可以理解SVM的原理了。
SVM的原理就是用一個(gè)N-1維的“分割超平面”線性分開N維空間,而所有數(shù)據(jù)都在這個(gè)空間內(nèi)各為一點(diǎn)。每一次分割超平面開始切分,都在將空間內(nèi)的數(shù)據(jù)分為兩部分(假設(shè)為A、B兩邊),模型的目的就是讓分出來的兩部分?jǐn)?shù)據(jù)是兩個(gè)類別,我們要理解在A這邊的每個(gè)數(shù)據(jù)點(diǎn)到分割超平面的距離為正值,那么另一邊(B那邊)的數(shù)據(jù)點(diǎn)到分割超平面的距離就一定為負(fù)值(我們把分割超平面看作是臨界面吧,或者看作是“海平面”,兩邊的點(diǎn)朝著臨界面直線出發(fā)時(shí),方向是相對(duì)的,這樣解釋大家就能明白為什么說一邊為正值另一邊就為負(fù)值了)。
當(dāng)模型計(jì)算所有特征相同的數(shù)據(jù)各自到分割超平面的距離時(shí),若都為正值(我們默認(rèn)這些特征相同的數(shù)據(jù)所占邊是A邊),那么分割正確,我們就知道空間內(nèi)所有數(shù)據(jù)被準(zhǔn)確無誤地分為兩類了。若發(fā)現(xiàn)有出現(xiàn)負(fù)值的,那一定是有至少一個(gè)數(shù)據(jù)站錯(cuò)邊了,換一種說法是我們這個(gè)分割超平面分割得不對(duì),分割超平面就會(huì)重新分割,直到分割完全正確。因?yàn)槔碚撋现v,分割超平面是一個(gè)多維空間的任意維度的“面”,它可以在數(shù)據(jù)任何分布的情況下都剛好把不同類(不同特征)的數(shù)據(jù)一分為二,保證它的分割不會(huì)讓任意一個(gè)數(shù)據(jù)“站錯(cuò)邊”。
借用幾張經(jīng)典示意圖幫助理解:
這只是一個(gè)簡(jiǎn)單示意圖,但是我們要發(fā)揮空間想象力,如果不能看起來是一條直線分割兩邊,那就讓看起來是一條曲線的分割超平面分割兩邊,但是這條曲線其實(shí)不是曲線,它是一個(gè)多維面。(這個(gè)多維空間真的燒腦,我記得網(wǎng)上有個(gè)很經(jīng)典的10分鐘理解多維空間的視頻,大家可以去搜一搜)
(5)樸素貝葉斯分類算法
首先說明一點(diǎn):KNN算法、決策樹ID3算法、logistic回歸算法、SVM都是屬于判別方法,而樸素貝葉斯算法是屬于生成方法。樸素貝葉斯算法的邏輯是:每一個(gè)訓(xùn)練數(shù)據(jù)輸入時(shí),計(jì)算該數(shù)據(jù)被分到每一個(gè)類別的概率,最后視概率最大的那一個(gè)為該輸入數(shù)據(jù)的類別。跟邏輯回歸一樣,作為產(chǎn)品經(jīng)理,大家只要記住宏觀邏輯就好了(手打調(diào)皮)。
公式:
3.2 無監(jiān)督學(xué)習(xí)
通俗解釋:你準(zhǔn)備一大堆問題丟給你的機(jī)器,每一個(gè)問題都不告訴它答案,叫它自己把問題分類了。它開始識(shí)別所有問題分別都是什么特征,然后開始將這些問題分類,比如A類、B類、C類。分類好了之后,你又對(duì)你朋友炫耀:我的機(jī)器機(jī)靈得跟猴似的,不信你問它問題。然后你朋友問它: “女朋友說自己感冒了應(yīng)該怎么回復(fù)她?”機(jī)器想了想,發(fā)現(xiàn)這個(gè)問題跟自己歸類的A類問題一樣,于是它就隨口用A類問題里的一個(gè)代表性問題作為回答:“女朋友說自己大姨媽來了該怎么回復(fù),你就怎么回復(fù)?!蹦愕呐笥延X得機(jī)器是理解了他的問題,但是他還是不知道該怎么回復(fù)女朋友啊,失望的走了。這個(gè)時(shí)候你發(fā)現(xiàn)你的機(jī)器回答方式不好呀,于是你告訴機(jī)器,不要用問題回答問題,你順便給了他的A類問題一個(gè)統(tǒng)一答案,就是“多喝熱水”。然后你叫你朋友再問一次機(jī)器,你朋友又來問了一次機(jī)器:“女朋友說自己感冒了我該怎么回復(fù)。”機(jī)器馬上回答:“叫她多喝熱水呀。”你朋友一聽,恍然大悟,開開心心地走了。
專業(yè)解釋:機(jī)器學(xué)習(xí)是否有監(jiān)督,就看訓(xùn)練時(shí)輸入的數(shù)據(jù)是否有標(biāo)簽(標(biāo)簽即標(biāo)注輸入數(shù)據(jù)對(duì)應(yīng)的答案)。無監(jiān)督學(xué)習(xí)即訓(xùn)練時(shí)輸入數(shù)據(jù)無標(biāo)簽,無監(jiān)督學(xué)習(xí)利用聚類算法。無監(jiān)督學(xué)習(xí)不利用“回歸”方式找到規(guī)律。其他的跟監(jiān)督學(xué)習(xí)基本相同。
(1)K-聚類(聚類算法)
K-means聚類是一種矢量量化的方法,給定一組向量,K-means算法將這些數(shù)據(jù)組織成k個(gè)子集,使得每個(gè)向量屬于最近的均值所在的子集。在特征學(xué)習(xí)中,K-means算法可以將一些沒有標(biāo)簽的輸入數(shù)據(jù)進(jìn)行聚類,然后使每個(gè)類別的“質(zhì)心”來生成新的特征。
換種說法就是:K個(gè)子集中每個(gè)子集都計(jì)算出一個(gè)均值,每個(gè)均值在空間里都為一個(gè)“質(zhì)心”,根據(jù)輸入數(shù)據(jù)的特征及特征值為它找到一個(gè)點(diǎn),這個(gè)點(diǎn)最接近哪個(gè)“質(zhì)心”,我們就視該數(shù)據(jù)屬于哪個(gè)子集,即與該子集所有數(shù)據(jù)為同一類。
(2)主成分分析法
容我偷個(gè)懶,這個(gè)我自己還未真正學(xué)習(xí)懂,所以就不寫了,后面出現(xiàn)未具體解釋的東西都是我還未學(xué)習(xí)明白的內(nèi)容。爭(zhēng)取只寫我真正自己學(xué)懂的東西,怕未完全明白的基礎(chǔ)上寫的東西容易出現(xiàn)誤導(dǎo)。但是我會(huì)在接下來的學(xué)習(xí)中把余下的AI知識(shí)都學(xué)好,并盡量再發(fā)文跟大家分享。
3.3 半監(jiān)督學(xué)習(xí)
半監(jiān)督學(xué)習(xí)其實(shí)就是監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)的方法合并利用,訓(xùn)練數(shù)據(jù)有一部分是有標(biāo)簽的,有一部分是無標(biāo)簽的,通常無標(biāo)簽的數(shù)據(jù)量比有標(biāo)簽的數(shù)據(jù)量大很多。
半監(jiān)督學(xué)習(xí)的好處是:
- 降低打標(biāo)簽的人工成本的情況下讓模型可以得到很好的優(yōu)化;
- 大量的沒辦法打標(biāo)簽的數(shù)據(jù)得以被利用起來,保證訓(xùn)練數(shù)據(jù)的量,從而讓訓(xùn)練結(jié)果更佳。
狹義上【半監(jiān)督學(xué)習(xí)】要分為transductive SVM、inductive SVM、Co-training、label propagation;我們可以嘗試用另外一種方法分類【半監(jiān)督學(xué)習(xí)】,即“分類半監(jiān)督”、“聚類半監(jiān)督”。
- 分類半監(jiān)督--舉例說明就是先用標(biāo)簽數(shù)據(jù)進(jìn)行訓(xùn)練,然后加入無標(biāo)簽數(shù)據(jù)訓(xùn)練,無標(biāo)簽數(shù)據(jù)輸入時(shí),會(huì)根據(jù)數(shù)據(jù)特征及特征值,看該數(shù)據(jù)與有標(biāo)簽數(shù)據(jù)分類中哪一類更接近(支持向量機(jī)SVM的方法就可以幫助找到最接近哪一類),就視為該類數(shù)據(jù);或者是,看該數(shù)據(jù)與有標(biāo)簽數(shù)據(jù)哪一個(gè)最接近(KNN的方法就可以找到最接近的那個(gè)數(shù)據(jù)),則把該無標(biāo)簽數(shù)據(jù)替換為該標(biāo)簽數(shù)據(jù)。
- 聚類半監(jiān)督–通常是在有標(biāo)簽數(shù)據(jù)的“標(biāo)簽不確定”的情況下利用(比如這個(gè)輸入數(shù)據(jù)的答案可能是xxx),“聚類半監(jiān)督”就是重點(diǎn)先完成數(shù)據(jù)的分類,然后嘗試根據(jù)標(biāo)簽數(shù)據(jù)訓(xùn)練提供的標(biāo)簽預(yù)測(cè)結(jié)果。
- S3VM算法
- S4VM算法
- CS4VM算法
- TSVM算法
3.4 強(qiáng)化學(xué)習(xí)
通俗解釋:你準(zhǔn)備一大堆問題,每個(gè)問題有多個(gè)答案選項(xiàng),其中只有一個(gè)選項(xiàng)是正確答案。手里拿著皮鞭,讓你的機(jī)器一個(gè)個(gè)問題的從選項(xiàng)里挑答案回答,回答正確了,你就溫柔的默默它的頭,回答錯(cuò)誤了,你就抽它丫的。所有問題都回答完了之后,再重復(fù)一次所有問題。然后你就發(fā)現(xiàn),你的機(jī)器每一次重復(fù),正確率都提高一些,直到最后正確率達(dá)到你的期望值了,這時(shí)候機(jī)器基本也從撫摸和抽打中找到了每一個(gè)問題的正確答案。機(jī)器通過一次次去猜測(cè)問題和答案之間的規(guī)律(即算法),一次次更新規(guī)律,最后也找到了最準(zhǔn)確那條規(guī)律(最佳算法),這時(shí),它機(jī)靈得跟猴一樣。(當(dāng)然實(shí)際過程里,只需要獎(jiǎng)勵(lì)機(jī)制就夠了,但是你想同時(shí)給懲罰機(jī)制,也可以的。)
專業(yè)解釋:我自己的理解,把強(qiáng)化學(xué)習(xí)理論分一和二,其中一是完全按照馬爾科夫決策過程的理論,需要理解環(huán)境,在每一步動(dòng)作時(shí)都得到一個(gè)反饋并計(jì)算下一步該怎么動(dòng)作更好;二是不需要理解環(huán)境,只需要在執(zhí)行完之后接收環(huán)境反饋的信號(hào),然后它才明白之前的動(dòng)作好不好,下次會(huì)堅(jiān)持或改變同樣情況下要執(zhí)行的動(dòng)作。
(1)強(qiáng)化學(xué)習(xí)理論一
agent(下文會(huì)講agent是什么,此處可以理解為機(jī)器本身)需要理解環(huán)境、分析環(huán)境,并且要推測(cè)出完成一個(gè)動(dòng)作得到獎(jiǎng)勵(lì)的概率。該理論完全滿足馬爾科夫決策。馬爾可夫的核心:在一個(gè)狀態(tài)下,可以采取一些動(dòng)作,每一個(gè)動(dòng)作都有一個(gè)“轉(zhuǎn)化狀態(tài)”且可以得出對(duì)應(yīng)“轉(zhuǎn)化狀態(tài)”的概率(或該“轉(zhuǎn)化狀態(tài)”能獲取獎(jiǎng)勵(lì)的概率)。而強(qiáng)化學(xué)習(xí)的目標(biāo)就是學(xué)習(xí)怎樣讓每一次行動(dòng)都是為了達(dá)到最有價(jià)值的“轉(zhuǎn)化狀態(tài)”上。
- model based(算法:Qleaning, Sarsa, Policy Gradients):理解真實(shí)環(huán)境,建立一個(gè)模擬環(huán)境的模型,有想象能力,根據(jù)想象預(yù)判結(jié)果,最后選擇想象中結(jié)果最好的那一種作為參考進(jìn)行下一步。
- policy based(算法:Policy Gradients,? Actor-critic):通過感官分析環(huán)境,推測(cè)出下一步要進(jìn)行的各種動(dòng)作的概率,取概率最大的作為實(shí)際行動(dòng)的參考。
- value based(算法:Qleaning, Sarsa):推測(cè)出所有動(dòng)作的價(jià)值,根據(jù)價(jià)值最高的作為實(shí)際動(dòng)作的參考。
- On policy(算法:Sarsa,? Sarsa lambda):必須親自參與
- Off policy(算法:Qleaning,? Deep-Q-Network):可親自參與;也可以不親自參與,通過觀看其他人或機(jī)器,對(duì)其他人或機(jī)器進(jìn)行模仿。
(2)強(qiáng)化學(xué)習(xí)理論二
agent不需要理解環(huán)境、分析環(huán)境時(shí),做出決策,該決策正確時(shí)獎(jiǎng)勵(lì),錯(cuò)誤時(shí)不獎(jiǎng)勵(lì)或懲罰。agent不會(huì)在動(dòng)作時(shí)去計(jì)算是否得到獎(jiǎng)勵(lì)的概率。
強(qiáng)化學(xué)習(xí)中的4個(gè)要素:agent(一個(gè)智能體,可以為一個(gè)算法模型,或直接理解成機(jī)器本身)、environment(環(huán)境,環(huán)境對(duì)于agent是獨(dú)立的,它可以是一個(gè)硬件設(shè)備、強(qiáng)化學(xué)習(xí)之外的某種機(jī)器學(xué)習(xí)模型等,它的任務(wù)就是當(dāng)action結(jié)束后用它的方式給agent一個(gè)信號(hào))、action(動(dòng)作)、reward(獎(jiǎng)勵(lì))。
agent能夠執(zhí)行多種action,但它每次只能選擇一個(gè)action來執(zhí)行,agent任意執(zhí)一個(gè)action來改變當(dāng)前狀態(tài),一個(gè)action被執(zhí)行后,environment會(huì)通過觀測(cè)得出一個(gè)observation,這個(gè)observation會(huì)被agent接收,同時(shí)會(huì)出現(xiàn)一個(gè)reward也會(huì)被agent接收(這個(gè)reward也來自于environment,environment可以通過推測(cè)或直接判斷action結(jié)束時(shí)達(dá)到的效果是否是AI工程師想要的效果來決定這個(gè)reward是正值還是負(fù)值,當(dāng)然負(fù)值相當(dāng)于是“懲罰”了)。
agent在執(zhí)行action時(shí)并不會(huì)知道結(jié)果會(huì)怎樣,當(dāng)agent接收到environment的observation時(shí),agent仍然是一無所知的(因?yàn)閍gent不理解environment),但由于environment同時(shí)反饋reward,agent才知道執(zhí)行的action好還是不好。agent會(huì)記住這次reward是正值還是負(fù)值,以后的action都會(huì)參考這次記憶。強(qiáng)化學(xué)習(xí)理論二對(duì)比一的區(qū)別就是:二并非在每一步都計(jì)算一個(gè)概率(所以二并非完全符合馬爾科夫決策)。
- model free(算法:Qleaning, Sarsa, Policy Gradients):不理解環(huán)境,等待環(huán)境反饋,根據(jù)反饋進(jìn)行下一步。
- Monte-carlo update(算法:Policy Gradients,? Monte-carlo leaning):等待所有過程結(jié)束,事后總結(jié)所有轉(zhuǎn)折點(diǎn)
- Temporal difference update(算法:Qleaning, Sarsa):過程中每一步都總結(jié)一下
- On policy(算法:Sarsa,? Sarsa lambda):必須親自參與
- Off policy(算法:Qleaning,? Deep-Q-Network):可親自參與;也可以不親自參與,通過觀看其他人或機(jī)器,對(duì)其他人或機(jī)器進(jìn)行模仿。
強(qiáng)化學(xué)習(xí)不糾結(jié)于找出一條規(guī)律/算法,它只關(guān)心結(jié)果輸出時(shí)能否得到獎(jiǎng)勵(lì)。之前提到的機(jī)器學(xué)習(xí)都是解決分類問題,而強(qiáng)化學(xué)習(xí)是解決“決策”問題。
3.5 遷移學(xué)習(xí)
通俗解釋:當(dāng)你的機(jī)器用以上幾種方式中任何一種方式學(xué)習(xí)完之后,你叫你的機(jī)器把學(xué)習(xí)后找到的規(guī)律(算法)寫在它的筆記本上。然后換一種學(xué)習(xí)方式,讓它繼續(xù)學(xué)習(xí),叫它用第二種方法學(xué)習(xí)的時(shí)候要看筆記本,把新學(xué)到的知識(shí)也寫上去,但是不能跟原筆記沖突,也不能修改原筆記。連續(xù)用多種方法讓你的機(jī)器學(xué)習(xí),它肯定比猴更機(jī)靈。
專業(yè)解釋:將一個(gè)已經(jīng)開發(fā)過的任務(wù)模型(源域)重復(fù)利用,作為第二個(gè)任務(wù)模型(目標(biāo)域)的起點(diǎn)。深度學(xué)習(xí)中會(huì)經(jīng)常用到遷移學(xué)習(xí),遷移時(shí)(復(fù)用時(shí)),可以全部使用或部分使用第一個(gè)模型(源任務(wù)模型),當(dāng)然這取決于第一個(gè)模型的建模邏輯是否允許。遷移學(xué)習(xí)是特別好的降低(獲取樣本數(shù)據(jù)、打標(biāo)簽)成本的方法。
(1)樣本遷移法
看看目標(biāo)域的樣本數(shù)據(jù)跟源域中訓(xùn)練數(shù)據(jù)哪部分相似,把目標(biāo)域中這部分樣本數(shù)據(jù)的特征值照著相似的源域中的樣本數(shù)據(jù)的特征值調(diào)整,盡量調(diào)到一樣,然后再把調(diào)過的數(shù)據(jù)權(quán)重值提高。這個(gè)方法是最簡(jiǎn)單的遷移學(xué)習(xí)方法,不過人工去調(diào),如果經(jīng)驗(yàn)不足,容易造成極大誤差。
(2)特征遷移法
找到源域同目標(biāo)域的數(shù)據(jù)中的共同特征,將這些共同特征的數(shù)據(jù)都放到同一個(gè)坐標(biāo)空間里,形成一個(gè)數(shù)據(jù)分布。這樣就可以得到一個(gè)數(shù)據(jù)量更大且更優(yōu)質(zhì)的模型空間。(之前提到很多模型算法對(duì)輸入數(shù)據(jù)分類時(shí)都要依靠模型里虛擬的空間,這個(gè)空間的質(zhì)量越好,分類效果越好)。
(3)模型遷移法
源域的整個(gè)模型都遷移到目標(biāo)域。最完整的遷移,但是可能會(huì)因?yàn)樵从蚰P偷奶赜械哪切?duì)目標(biāo)域來說沒有的數(shù)據(jù)、特征、特征值等,在目標(biāo)域中反而會(huì)有干擾效果(類似與“過擬合”)。
(4)關(guān)系遷移法
當(dāng)兩個(gè)域相似時(shí),可以直接將源域的邏輯網(wǎng)絡(luò)關(guān)系在目標(biāo)域中進(jìn)行應(yīng)用。比如我們將人的大腦神經(jīng)網(wǎng)絡(luò)的邏輯關(guān)系遷移到AI神經(jīng)網(wǎng)絡(luò)中,因?yàn)閺倪壿嬌线@兩者我們覺得是一樣的。
3.6 深度學(xué)習(xí)
深度學(xué)習(xí)可以理解為是多個(gè)簡(jiǎn)單模型組合起來,實(shí)現(xiàn)多層神經(jīng)網(wǎng)絡(luò),每層神經(jīng)網(wǎng)絡(luò)(也可以叫做神經(jīng)元)處理一次數(shù)據(jù),然后傳遞到下一層繼續(xù)處理。這種多層的結(jié)構(gòu)比起淺層學(xué)習(xí)的模型優(yōu)勢(shì)在于,可以提取出數(shù)據(jù)特征(無需人工提?。!吧疃取辈]有絕對(duì)的定義,語音識(shí)別的模型中4層神經(jīng)網(wǎng)絡(luò)就算深了,但在圖像識(shí)別的模型中,20層也不算很深。
(1)DNN深度神經(jīng)網(wǎng)絡(luò)
深度神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)最基礎(chǔ)的神經(jīng)網(wǎng)絡(luò)。有很多層(每一層為一個(gè)神經(jīng)元)從上往下排列,每一個(gè)層相互連接。有個(gè)缺點(diǎn)就是,正因?yàn)槊恳粚又g連接起來,出現(xiàn)了參數(shù)數(shù)量膨脹問題(因?yàn)槊恳粚由婕暗揭粋€(gè)算法,每一個(gè)算法都有自己的各種參數(shù)),這樣的情況下容易過擬合(實(shí)現(xiàn)了局部最佳但整體擬合不佳)。
(2)CNN卷積神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)有“卷積核”,這個(gè)“卷積核”可以作為介質(zhì)連接神經(jīng)元,用“卷積核”連接神經(jīng)元時(shí)就不需要每一層都連接了。
(3)RNN循環(huán)神經(jīng)網(wǎng)絡(luò)
因?yàn)镈NN還有一個(gè)缺點(diǎn),無法對(duì)時(shí)間序列上發(fā)生的變化進(jìn)行建模,如果在語音識(shí)別、自然語言處理等應(yīng)用中使用AI模型時(shí),數(shù)據(jù)的時(shí)間順序影響很大。所以RNN就出現(xiàn)了,RNN能彌補(bǔ)DNN的缺點(diǎn),可以在時(shí)間序列上發(fā)生的變化進(jìn)行建模。
4. 重要的關(guān)鍵詞解釋
4.1 擬合
擬合是用來形容訓(xùn)練結(jié)束后效果好壞的。
(1)欠擬合
當(dāng)訓(xùn)練數(shù)據(jù)少、數(shù)據(jù)質(zhì)量差的時(shí)候,訓(xùn)練出來的模型質(zhì)量就差(或者說損失函數(shù)過大),這時(shí)進(jìn)行測(cè)試的時(shí)候,就會(huì)出現(xiàn)誤差大,即“欠擬合”狀況。
(2)過擬合
在訓(xùn)練階段,反復(fù)用同樣的訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練,可以讓訓(xùn)練效果變得更好(損失函數(shù)小),但同時(shí)機(jī)器會(huì)因?yàn)橐_(dá)到最好的訓(xùn)練效果,將訓(xùn)練數(shù)據(jù)中不重要的特征或只有訓(xùn)練數(shù)據(jù)才有的某些特征進(jìn)行利用得太重或開始學(xué)習(xí)不需要的細(xì)節(jié),也就是說機(jī)器對(duì)訓(xùn)練數(shù)據(jù)太過依賴,最后就會(huì)出現(xiàn)在訓(xùn)練數(shù)據(jù)上表現(xiàn)特別好,但在其他數(shù)據(jù)上表現(xiàn)不佳。這樣的情況叫做“過擬合“。
(3)最佳擬合
欠擬合、過擬合都不是我們需要的。我們要的是最佳擬合。所以我們?cè)谟?xùn)練機(jī)器時(shí)要注意平衡。最佳點(diǎn)在哪里呢?最佳點(diǎn)在訓(xùn)練的損失函數(shù)還在減小,而測(cè)試的損失函數(shù)在減小之后突然開始增大的該點(diǎn)上。此時(shí)我們就達(dá)到了“最佳擬合”。
4.2 泛化性
訓(xùn)練好的模型在其他數(shù)據(jù)上的表現(xiàn)好壞用泛化性形容。在其他數(shù)據(jù)上表現(xiàn)越好,泛化性越高。
4.3 損失函數(shù)
用于評(píng)估“不準(zhǔn)確”的程度,它是衡量模型估算值和真實(shí)值差距的標(biāo)準(zhǔn)。損失函數(shù)(loss)越小,則模型的估算值和真實(shí)值的差距越小,通常情況下我們要把loss降到最低。
4.4 香農(nóng)熵
形容信息量大小。機(jī)器學(xué)習(xí)中重要是用于衡量特征的數(shù)量多少。一個(gè)數(shù)據(jù)的特征越多,說明我們可以從這個(gè)數(shù)據(jù)中獲得的信息越多,也就可以說香農(nóng)熵高。順便提一下,決策樹的生成過程,就是降低香農(nóng)熵的過程。
4.5 標(biāo)簽
指給數(shù)據(jù)標(biāo)記的答案。標(biāo)記好答案的數(shù)據(jù)叫做“標(biāo)簽數(shù)據(jù)”。
4.6 特征值
特征(feature)的值。比如房子有特征(feature):空間、價(jià)格。它的特征值:(空間)200平方米、(價(jià)格)1500萬。一般在機(jī)器學(xué)習(xí)的監(jiān)督學(xué)習(xí)中,我們需要對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行特征提取的處理,即標(biāo)記好每個(gè)數(shù)據(jù)有哪些特征和對(duì)應(yīng)特征值。
當(dāng)特征值損失的情況:
在實(shí)際的機(jī)器學(xué)習(xí)過程中,有時(shí)候會(huì)發(fā)生數(shù)據(jù)缺失的問題,比如一個(gè)數(shù)據(jù)有X個(gè)特征,但是由于意外發(fā)生,我們只得到部分(小于X)特征的值,在這種情況下,為了不浪費(fèi)整個(gè)樣本資源,且可以順利的繼續(xù)機(jī)器學(xué)習(xí),我們需要有一些彌補(bǔ)措施:
- 認(rèn)為設(shè)置某些特征的特征值(根據(jù)經(jīng)驗(yàn)),然后利用;
- 找到相似的另一組樣本,用另一組樣本的特征平均值代替缺失的特征值;
- 用其他的機(jī)器學(xué)習(xí)模型專門針對(duì)缺失的特征值進(jìn)行學(xué)習(xí)然后利用該模型找出缺失特征值;
- 使用已有特征值的均值來替代未知特征值;
- 在機(jī)器學(xué)習(xí)過程中用一些方法,讓機(jī)器忽略已缺失特征值的數(shù)據(jù)。
4.7 類別
物以類聚人以群分,特征相同的數(shù)據(jù)就是同一類別。機(jī)器學(xué)習(xí)中特別重要的一個(gè)步驟就是利用算法將數(shù)據(jù)分類(學(xué)習(xí)算法里邊會(huì)提到多種實(shí)現(xiàn)數(shù)據(jù)分類的算法),機(jī)器會(huì)盡量將所有輸入數(shù)據(jù)進(jìn)行分類,分類的邏輯就是通過數(shù)據(jù)的“特征”,特征接近的數(shù)據(jù)會(huì)被機(jī)器認(rèn)為是同一類別的數(shù)據(jù)。
4.8 分類&聚類
分類是目前最簡(jiǎn)單也是效果最好的一類算法(比如KNN、決策樹ID3、logistic回歸、SVM等都屬于分類算法)。分類算法的前提條件是訓(xùn)練數(shù)據(jù)必須帶有標(biāo)簽。
聚類是目前相對(duì)分類更復(fù)雜同時(shí)效果更差的一類算法(無監(jiān)督學(xué)習(xí)就是用聚類算法)。聚類算法的優(yōu)勢(shì)是可以訓(xùn)練數(shù)據(jù)不需要標(biāo)簽。表面上看來分類算法比聚類算法好用很多,那我們還要用聚類算法的理由是什么呢?其實(shí),在實(shí)際情況下,訓(xùn)練機(jī)器時(shí),要給數(shù)據(jù)打標(biāo)簽是個(gè)人工消耗極大的工作,不僅工作量大,很多時(shí)候?qū)?shù)據(jù)打準(zhǔn)確的標(biāo)簽難度也大。
4.9 決策樹
根據(jù)數(shù)據(jù)的特征值對(duì)數(shù)據(jù)進(jìn)行不斷分支,直到不可再分支(附 決策樹形象圖)。決策樹的每一次對(duì)數(shù)據(jù)分支,就消耗一個(gè)特征值。當(dāng)所有特征值消耗完后,決策樹成形。決策樹的每一個(gè)節(jié)點(diǎn),即每一次對(duì)特征分支時(shí),通常以yes/no的判斷形式進(jìn)行劃分(所以才叫“決策樹”嘛)。
決策樹幫助機(jī)器對(duì)數(shù)據(jù)進(jìn)行分類(根據(jù)特征,決策樹的分裂點(diǎn)即特征分別點(diǎn)),決策樹形成后,滿足一條分枝上所有分裂點(diǎn)條件的為同一類數(shù)據(jù)。要注意的是,有時(shí)候決策樹分枝太長(zhǎng),會(huì)導(dǎo)致過擬合。因?yàn)闆Q策樹很可能把訓(xùn)練數(shù)據(jù)中不太有代表性的特征放在分裂點(diǎn)上,這樣形成的決策樹不適應(yīng)與訓(xùn)練數(shù)據(jù)之外的數(shù)據(jù)了。如果出現(xiàn)這種情況,需要“剪枝”,枝越長(zhǎng),說明模型可能越依賴訓(xùn)練數(shù)據(jù),在枝的長(zhǎng)短上,要做一個(gè)平衡,平衡的原則請(qǐng)參考本文提到的“欠擬合”與“過擬合”的關(guān)鍵詞解釋。
我們用最簡(jiǎn)單的決策樹二叉樹抽象示意圖來表達(dá)我們招聘產(chǎn)品經(jīng)理時(shí)的一個(gè)面試判斷過程:
有時(shí)候分裂點(diǎn)上有數(shù)值判斷,這些數(shù)值都叫做“閾值”。在決策樹中,對(duì)閾值的使用越合理,訓(xùn)練形成的決策樹效果越好,用在數(shù)據(jù)上越精確。請(qǐng)查看簡(jiǎn)化決策樹示意圖2:
4.10 知識(shí)圖譜
知識(shí)圖譜是模擬物理世界的實(shí)物與實(shí)物之間的關(guān)系,知識(shí)圖譜呈現(xiàn)為無限擴(kuò)散的類網(wǎng)狀結(jié)構(gòu)。它的結(jié)構(gòu)組成為“實(shí)體”–“關(guān)系”–“實(shí)體”,以及“實(shí)體”–“屬性”–“值”。知識(shí)圖譜使得AI找到一個(gè)信息時(shí),同時(shí)也獲得了更多跟跟這個(gè)信息相關(guān)的其他信息。希望大家可以具體去看知識(shí)圖譜相關(guān)書籍,該知識(shí)還是相對(duì)容易看明白的。
知識(shí)圖譜簡(jiǎn)化示意圖:
其中“老狼–女朋友–斯嘉麗約翰遜”,就是實(shí)體–關(guān)系–實(shí)體,“老狼–生日–3月29”和“斯嘉麗約翰遜–罩杯–D”就是實(shí)體–屬性–值。舉一個(gè)利用知識(shí)圖譜的常見栗子:當(dāng)有人問AI:“老狼有女朋友嗎?”AI有自然語言處理的支撐,就可以識(shí)別到這個(gè)人在向它提問,且在詢問老狼的女朋友這件事。同時(shí)有知識(shí)圖譜的支撐,AI就可以準(zhǔn)確回答:“老狼有個(gè)叫斯嘉麗約翰遜的女朋友,是個(gè)D罩杯的美女呢?!?/p>
5. 基礎(chǔ)技術(shù)
5.1 語音識(shí)別(ASR)
一句話定義就是:將人類聲音轉(zhuǎn)化成文字的過程。
按識(shí)別范圍分類為“封閉域識(shí)別”和“開放域識(shí)別”。
- 封閉域識(shí)別:在預(yù)先指定的字/詞集合內(nèi)進(jìn)行識(shí)別。如此可將聲學(xué)模型和語音模型進(jìn)行剪裁,識(shí)別引擎的計(jì)算量也變低??梢詫⒁娣庋b于嵌入式芯片或本地化SDK,脫離云端,且不會(huì)影響識(shí)別率;
- 開放域識(shí)別:在整個(gè)語言大集合中識(shí)別。引擎計(jì)算量大,直接封裝到嵌入式芯片或本地SDK中,耗能高且識(shí)別效果差,所以一般都只以云端形式提供。(更詳細(xì)的介紹可看文末分享的腦圖)
5.2 計(jì)算機(jī)視覺(CV)
一句話定義:計(jì)算機(jī)對(duì)生物視覺的模擬。通過采集圖片、視頻進(jìn)行處理,以獲取相應(yīng)場(chǎng)景的三維信息。
計(jì)算機(jī)視覺的三步驟為成像、早期視覺、識(shí)別理解。其中成像原理跟相機(jī)原理相同,成像質(zhì)量受光照影響、模糊、噪聲、分辨率的影響,我們需要去找到好的方法來解決光照、模糊等問題。早期視覺又有圖像分割(將特定影像分割成“區(qū)域內(nèi)部屬性一致”而“區(qū)域間不一致”的技術(shù))、邊緣求取(找到圖像中的亮度變化劇烈的像素點(diǎn)構(gòu)成的集合,即找出輪廓)、運(yùn)動(dòng)及深度估計(jì)三種方法。識(shí)別理解是最后一步,即把一張圖片對(duì)應(yīng)到一個(gè)文字或標(biāo)簽(根據(jù)機(jī)器找到的映射關(guān)系得出輸出)。
計(jì)算機(jī)視覺的三種應(yīng)用介紹:人臉識(shí)別、多目標(biāo)跟蹤、光學(xué)符號(hào)識(shí)別。
- 人臉識(shí)別的技術(shù)流程:人臉采集–人臉檢測(cè)–圖像預(yù)處理–特征提取–人臉匹配與識(shí)別。在實(shí)際流程當(dāng)中,每一個(gè)環(huán)節(jié)都有對(duì)應(yīng)的注意事項(xiàng),詳情請(qǐng)看老狼在文末準(zhǔn)備的腦圖。
- 多目標(biāo)追蹤的技術(shù)流程:圖像采集–圖像預(yù)處理–基于深度學(xué)習(xí)的多目標(biāo)檢測(cè)識(shí)別–多目標(biāo)跟蹤–輸出結(jié)果。在實(shí)際流程當(dāng)中,每一個(gè)環(huán)節(jié)都有對(duì)應(yīng)的注意事項(xiàng),詳情請(qǐng)看老狼在文末準(zhǔn)備的腦圖。
- 光學(xué)符號(hào)識(shí)別的技術(shù)流程:圖像采集–圖像預(yù)處理–特征提取–文字定位–光學(xué)識(shí)別。在實(shí)際流程當(dāng)中,每一個(gè)環(huán)節(jié)都有對(duì)應(yīng)的注意事項(xiàng),詳情請(qǐng)看老狼在文末準(zhǔn)備的腦圖。
5.3 自然語言處理(NLP)
一句話定義:自然語言處理(NLP)是指機(jī)器理解并解釋人類寫作、說話方式的能力。
NLP又包含NLU(自然語言理解)、NLG(自然語言生成)。自然語言處理中最重要的3個(gè)環(huán)節(jié)是分詞、鎖定關(guān)鍵詞、文本相似度計(jì)算。因?yàn)槟壳皺C(jī)器的語言識(shí)別其實(shí)都是基于對(duì)詞的識(shí)別,任何句子進(jìn)行自然語言處理時(shí)第一步都是要分詞,比如:“我是產(chǎn)品經(jīng)理”,分詞后變成“我-是-產(chǎn)品-經(jīng)理”。分詞之后,要找到“關(guān)鍵詞”,“關(guān)鍵詞”是提供重要信息、最多信息的詞,比如在“我是產(chǎn)品經(jīng)理”句子被分詞后,機(jī)器會(huì)選擇“產(chǎn)品”、“經(jīng)理”為該句子“關(guān)鍵詞”。文本相似度有歐氏距離、曼哈頓距離等算法,詳情看老狼的腦圖。
6. 技術(shù)分層
從技術(shù)實(shí)現(xiàn)的效果的角度將AI技術(shù)進(jìn)行分層:
- 認(rèn)知,通過收集、解析信息對(duì)世界和環(huán)境進(jìn)行認(rèn)知。包括圖片處理技術(shù)、語音識(shí)別、自然語言識(shí)別技術(shù)。
- 預(yù)測(cè)行為和結(jié)果。比如在用戶行為研究的基礎(chǔ)上根據(jù)對(duì)用戶當(dāng)前行為的識(shí)別,預(yù)測(cè)用戶下一步想做什么,然后主動(dòng)滿足用戶。
- 確定實(shí)現(xiàn)的方式和路徑。比如AI代替醫(yī)生給病人看病,得出病癥和治病方案。
7. AI的常用語言及框架
市場(chǎng)上有的AI框架包括TensorFlow、Caffe、Torch、Theano等等,目前大部分工程師利用的是Tensorflow。AI編程可以利用多種計(jì)算機(jī)語言,目前最常用的是C++和python。
想要實(shí)操練習(xí)的小伙伴,到Google官方網(wǎng)站,按照官方的教程安裝TensorFlow,安裝好之后,你就可以用它提供的多個(gè)API來訓(xùn)練機(jī)器學(xué)習(xí)模型了。
8. AI的價(jià)值
互聯(lián)網(wǎng)的價(jià)值在于降低成本、提高效率;而AI 可以替代人力,讓成本直接為0,其蘊(yùn)含的市場(chǎng)價(jià)值比互聯(lián)網(wǎng)技術(shù)的市場(chǎng)價(jià)值更高。
二、AI的邊界
要理解AI的邊界,就必須從AI三要素切入。三要素分別為算法、計(jì)算力、數(shù)據(jù)。我們通過對(duì)已有模型算法的理解,計(jì)算力的認(rèn)知以及對(duì)可獲取數(shù)據(jù)的判斷,就可以推測(cè)出我們落地時(shí)可實(shí)現(xiàn)哪些,以及可實(shí)現(xiàn)到什么程度。
有一個(gè)宏觀判斷邊界的快捷法,叫做“1秒法則”:當(dāng)前的AI可以實(shí)現(xiàn)到處理人1秒內(nèi)可以想到答案的問題。而且這個(gè)問題還得滿足以下特點(diǎn):大規(guī)模、重復(fù)性、限定領(lǐng)域。
三、AI的市場(chǎng)情況
1. AI應(yīng)用分類
關(guān)鍵性應(yīng)用:需要算法準(zhǔn)確度在99.9999%以上的應(yīng)用。比如無人駕駛汽車、手術(shù)機(jī)器人等。
非關(guān)鍵性應(yīng)用:只需要算法準(zhǔn)確度在99%或95%以上的應(yīng)用。例如人臉識(shí)別、廣告推送等。
關(guān)鍵性應(yīng)用對(duì)算法要求極高,需要特別優(yōu)秀的AI算法專家來推動(dòng)實(shí)現(xiàn)。非關(guān)鍵性應(yīng)用對(duì)算法要求相對(duì)低,借助開源算法即可以進(jìn)行落地。關(guān)鍵性應(yīng)用的關(guān)鍵角色是AI算法專家(AI 科學(xué)家)、非關(guān)鍵性應(yīng)用的關(guān)鍵角色則是AI PM 。
2. AI的市場(chǎng)化
由于云計(jì)算解決了計(jì)算力的問題,又有開源算法以及Google等公司開放的框架可利用,很多AI產(chǎn)品的落地條件只剩下找到數(shù)據(jù)了。而一些有數(shù)據(jù)積累的互聯(lián)網(wǎng)公司在這一點(diǎn)上具備先發(fā)優(yōu)勢(shì),比如百度、阿里、騰訊,都開始搶奪下一個(gè)商業(yè)風(fēng)口(AI)了。百度已經(jīng)是all in AI 了,目前百度的無人汽車駕駛已經(jīng)初見成效,離大規(guī)模商品化不遠(yuǎn)。阿里利用AI為自己的服務(wù)進(jìn)行各種升級(jí),比如人臉識(shí)別、人臉解鎖等等,現(xiàn)在阿里布局的新零售線下無人超市等必不可缺AI支持。騰訊的計(jì)算機(jī)識(shí)別相關(guān)軟件已經(jīng)成熟并等待深度商業(yè)化。另外一些小一點(diǎn)且針對(duì)領(lǐng)域相對(duì)垂直的互聯(lián)網(wǎng)公司,如喜馬拉雅、美團(tuán)等,都開始為自己的應(yīng)用或服務(wù)AI 賦能。(此處針對(duì)非關(guān)鍵性應(yīng)用介紹)
過去多年互聯(lián)網(wǎng)的發(fā)展很好地打下了數(shù)據(jù)基礎(chǔ),互聯(lián)網(wǎng)應(yīng)用是很好的數(shù)據(jù)采取端口。產(chǎn)品經(jīng)理要負(fù)責(zé)AI產(chǎn)品的時(shí)候同樣需要多花心思設(shè)計(jì)應(yīng)用的數(shù)據(jù)采集體系,使得可更高效地采集數(shù)據(jù),且采集數(shù)據(jù)更便于形成優(yōu)質(zhì)樣本。
順便說下短期市場(chǎng)趨勢(shì)——專家系統(tǒng)。“專家系統(tǒng)”也是AI模型里很重要的一部分,我們可以簡(jiǎn)單理解為“專家系統(tǒng)”就是針對(duì)一個(gè)專業(yè)領(lǐng)域進(jìn)行專業(yè)知識(shí)的訓(xùn)練而獲得的模型,“專家系統(tǒng)”其實(shí)就是機(jī)器復(fù)制行業(yè)專家的專業(yè)能力,并替代其完成工作。比如醫(yī)療專家系統(tǒng)AI、股票專家系統(tǒng)AI。前者是替代醫(yī)生進(jìn)行診斷看病并輸出結(jié)果,后者是替代股票專家?guī)陀脩舴治龉墒屑巴扑]股票。“專家系統(tǒng)”的訓(xùn)練要依靠行業(yè)專家或?qū)<铱偨Y(jié)的專業(yè)知識(shí),行業(yè)專家要參與訓(xùn)練和測(cè)試效果。目前市場(chǎng)里某些領(lǐng)域的“專家系統(tǒng)”已經(jīng)相當(dāng)成熟了,“專家系統(tǒng)”也是最容易直接創(chuàng)造商業(yè)價(jià)值的AI。目前大公司的AI框架所開放的API已經(jīng)足夠訓(xùn)練成熟的“專家系統(tǒng)”,只需要滿足條件:1)有專家知識(shí);2)有足夠多的優(yōu)質(zhì)數(shù)據(jù)。
3. 硬件&軟件
AI的產(chǎn)品可以分為硬件AI(包括硬軟結(jié)合AI)、軟件AI。其中硬件AI產(chǎn)品的落地成本更高、風(fēng)險(xiǎn)更大、周期更長(zhǎng),所以目前市場(chǎng)資本對(duì)軟件AI公司更偏好一些,拿到投資的這類公司的量也多一些。2018年開始后的兩三年內(nèi),亮相市場(chǎng)的AI產(chǎn)品應(yīng)該大量都是軟件類,甚至說大量的AI產(chǎn)品就來自于移動(dòng)互聯(lián)網(wǎng)產(chǎn)品的升級(jí)(AI賦能)。比如美團(tuán)外賣app已經(jīng)加了AI機(jī)器人服務(wù)功能,還有微軟識(shí)花等純AI的app…
4. AI市場(chǎng)的人才需求
目前人才需求是市場(chǎng)第一需求。人才包括新興崗位:AI算法科學(xué)家、AI工程師、人工智能訓(xùn)練師、AI產(chǎn)品經(jīng)理、數(shù)據(jù)標(biāo)注專員。涉及到關(guān)鍵性應(yīng)用時(shí),AI算法科學(xué)家、AI工程師是最稀缺且第一需求人才;涉及到非關(guān)鍵性應(yīng)用時(shí),AI產(chǎn)品經(jīng)理為最稀缺且第一需求人才。
目前市場(chǎng)在嘗試各行各領(lǐng)域的AI產(chǎn)品,但由于AI產(chǎn)品經(jīng)理的匱乏,大部分進(jìn)展過慢或難以開展。市場(chǎng)需要更多的合格的AI產(chǎn)品經(jīng)理,合格的AI產(chǎn)品經(jīng)理需要對(duì)AI認(rèn)知全面且懂得如何與實(shí)際的市場(chǎng)需求相聯(lián)系,同時(shí)還需要有對(duì)新的需求場(chǎng)景的開發(fā)、摸索(所以AI產(chǎn)品經(jīng)理還是得具備行業(yè)經(jīng)驗(yàn),對(duì)行業(yè)理解深刻)。
四、AI項(xiàng)目中的分工
1. AI科學(xué)家
崗位職責(zé):
研究機(jī)器學(xué)習(xí)算法、AI模型(通常只有關(guān)鍵性應(yīng)用的項(xiàng)目才會(huì)需要AI科學(xué)家)。
2. AI工程師
崗位職責(zé):
利用模型進(jìn)行編程,負(fù)責(zé)調(diào)整模型參數(shù),以及數(shù)據(jù)訓(xùn)練的操作。
3. AI訓(xùn)練師
(1)崗位職責(zé)
通過分析產(chǎn)品需求及相關(guān)數(shù)據(jù),制定數(shù)據(jù)標(biāo)注規(guī)則,提高數(shù)據(jù)標(biāo)注工作質(zhì)量和效率,同時(shí)累積細(xì)分領(lǐng)域通用數(shù)據(jù)。
(2)崗位需求背景
- 數(shù)據(jù)標(biāo)注是AI項(xiàng)目中最重要的環(huán)節(jié)之一。一般情況下需要由數(shù)據(jù)標(biāo)注員來完成數(shù)據(jù)標(biāo)注(即給訓(xùn)練數(shù)據(jù)打標(biāo)簽),但是數(shù)據(jù)標(biāo)注員對(duì)數(shù)據(jù)的理解的不同會(huì)造成標(biāo)注質(zhì)量差異大,導(dǎo)致整個(gè)標(biāo)注工作的效率和效果都不好。
- AI公司在其細(xì)分領(lǐng)域可能累積了大量數(shù)據(jù),但是由于缺少對(duì)數(shù)據(jù)的正確管理,使得這些數(shù)據(jù)難以沉淀、復(fù)用,使用一次之后難以再發(fā)揮價(jià)值。所以AI訓(xùn)練師成為了必要。
(3)具體工作內(nèi)容
- 通過聚類算法、標(biāo)注分析等方式,以及憑借對(duì)行業(yè)的理解,從數(shù)據(jù)中結(jié)合行業(yè)場(chǎng)景提取特征。輸出表達(dá)清晰準(zhǔn)確的數(shù)據(jù)標(biāo)注規(guī)則。
- 輔助AI工程師的工作,并進(jìn)行數(shù)據(jù)驗(yàn)收。參與核心指標(biāo)的制定以及指標(biāo)監(jiān)督。日常跟蹤數(shù)據(jù)。(偏向于運(yùn)營(yíng)的工作)
- 根據(jù)細(xì)分領(lǐng)域的數(shù)據(jù)應(yīng)用需求,從已有數(shù)據(jù)中挑選符合要求的通用數(shù)據(jù),形成數(shù)據(jù)沉淀、積累。
- 提出細(xì)化的數(shù)據(jù)需求,以及提出產(chǎn)品優(yōu)化建議。該工作需要和AI產(chǎn)品經(jīng)理進(jìn)行大量溝通
- 分配數(shù)據(jù)標(biāo)注員的工作,對(duì)數(shù)據(jù)標(biāo)注員的工作進(jìn)行培訓(xùn)、指導(dǎo)。以及驗(yàn)收數(shù)據(jù)(檢查數(shù)據(jù)標(biāo)注員工作結(jié)果)。該工作需要和數(shù)據(jù)標(biāo)注員進(jìn)行大量溝通。
(4)兩個(gè)側(cè)重方向
AI訓(xùn)練師有兩個(gè)側(cè)重方向:
- 一是重前期的數(shù)據(jù)挖掘工作及輔助AI工程師的工作,保證產(chǎn)品落地;
- 二是重后期的產(chǎn)品運(yùn)營(yíng),提升產(chǎn)品體驗(yàn)。根據(jù)不同項(xiàng)目的需求而定側(cè)重方向。
(5)能力模型
- 數(shù)據(jù)能力——會(huì)使用科學(xué)的數(shù)據(jù)獲取方法,能利用excel之類的數(shù)據(jù)處理工具。
- 行業(yè)背景——熟悉公司行業(yè)領(lǐng)域知識(shí),以及數(shù)據(jù)特點(diǎn)(比如語言、圖像)。
- 分析能力——基于產(chǎn)品數(shù)據(jù)需求,提煉問題特征,輸出優(yōu)化方案。
- 溝通能力——能通俗易懂的闡釋專業(yè)術(shù)語,與各崗位同事交流都能切換頻道。
- AI技術(shù)理解力——特別是跟AI工程師交流時(shí)能厘清AI概念,并判斷技術(shù)邊界(能不能做,能做到什么程度)。
- AI行業(yè)理解力——具備AI行業(yè)知識(shí)框架。
4. AI產(chǎn)品經(jīng)理
(1)崗位職責(zé)
理解行業(yè)及用戶,收集/挖掘需求、分析需求,做出產(chǎn)品戰(zhàn)略規(guī)劃,并設(shè)計(jì)產(chǎn)品解決方案、分析最佳的AI解決方案(比如用什么AI技術(shù)、哪一個(gè)模型),與AI訓(xùn)練師溝通、AI工程師溝通,完成產(chǎn)品demo,推動(dòng)產(chǎn)品上線,跟蹤數(shù)據(jù),做出產(chǎn)品優(yōu)化方案。
(2)崗位需求背景
無論在哪個(gè)領(lǐng)域,做產(chǎn)品都需要產(chǎn)品經(jīng)理。只不過在AI領(lǐng)域,需要對(duì)AI行業(yè)知識(shí)理解深刻的產(chǎn)品經(jīng)理,這樣的產(chǎn)品經(jīng)理具備邊界判斷的能力以及判斷最佳解決方案的能力,我們把這樣的產(chǎn)品經(jīng)理叫AI產(chǎn)品經(jīng)理。
(3)具體工作內(nèi)容
- 調(diào)研行業(yè),理解行業(yè)業(yè)務(wù),收集或挖掘行業(yè)需求;
- 深刻理解需求,分析目標(biāo)用戶,輸出用戶畫像;
- 定位產(chǎn)品,制定產(chǎn)品戰(zhàn)略(結(jié)合對(duì)市場(chǎng)發(fā)展趨勢(shì)、競(jìng)品等的理解);
- 找出解決需求的方案,并轉(zhuǎn)化為AI產(chǎn)品;選擇最佳AI解決方案(帶著需求和產(chǎn)品規(guī)劃與AI工程師、AI訓(xùn)練師深度溝通),并判斷落地可行性及可實(shí)現(xiàn)程度;參與制定數(shù)據(jù)標(biāo)注規(guī)則;
- 設(shè)計(jì)產(chǎn)品,輸出產(chǎn)品demo及各種文檔(流程圖、PRD等);
- 向AI訓(xùn)練師收集產(chǎn)品優(yōu)化建議;
- 優(yōu)化產(chǎn)品;
- 評(píng)估產(chǎn)品,計(jì)劃開發(fā)(UI設(shè)計(jì)及開發(fā))階段、周期。制定驗(yàn)收標(biāo)準(zhǔn);
- 驗(yàn)收產(chǎn)品,與運(yùn)營(yíng)對(duì)接,上線。
(4)能力模型
- AI技術(shù)理解力——跟AI工程師交流時(shí)能厘清AI概念,判斷技術(shù)邊界(能不能做,能做到什么程度);能結(jié)合產(chǎn)品體驗(yàn),做好交互設(shè)計(jì),使得AI部分的表現(xiàn)形式最佳;了解需要什么樣的數(shù)據(jù),甚至設(shè)計(jì)最佳數(shù)據(jù)采集功能,使應(yīng)用可以更好的采集高質(zhì)量數(shù)據(jù),累積以備利用。
- AI行業(yè)理解力(加創(chuàng)造力)——具備AI行業(yè)知識(shí)框架。能結(jié)合系統(tǒng)的AI知識(shí)展開邏輯性的思維發(fā)散,考慮AI帶來的新行業(yè)的可能性。
- 傳統(tǒng)互聯(lián)網(wǎng)產(chǎn)品經(jīng)理的通用能力
5. 數(shù)據(jù)標(biāo)注員
(1)崗位職責(zé)
負(fù)責(zé)給數(shù)據(jù)打標(biāo)簽的執(zhí)行工作。
(2)崗位需求背景
數(shù)據(jù)標(biāo)注是個(gè)工作量極大的工作,且專業(yè)度要求不高。
(3)具體工作內(nèi)容
- 按照規(guī)則預(yù)訓(xùn)練,評(píng)估規(guī)則及工時(shí);
- 按規(guī)則完成要求的數(shù)據(jù)標(biāo)簽;
- 交付已標(biāo)注數(shù)據(jù)。
PS:AI產(chǎn)品經(jīng)理和AI訓(xùn)練師具備類似的能力模型,只是工作側(cè)重點(diǎn)不同,AI訓(xùn)練師負(fù)責(zé)更細(xì)分的數(shù)據(jù)工作。目前市場(chǎng)上的AI訓(xùn)練師大部分來自產(chǎn)品經(jīng)理的轉(zhuǎn)型。而AI 產(chǎn)品經(jīng)理可以直接兼顧AI訓(xùn)練師的職責(zé),即不需要AI訓(xùn)練師,只要AI產(chǎn)品經(jīng)理。
五、PM對(duì)互聯(lián)網(wǎng)產(chǎn)品AI升級(jí)
很多移動(dòng)互聯(lián)網(wǎng)的產(chǎn)品都可以進(jìn)行AI升級(jí),所以建議產(chǎn)品經(jīng)理們進(jìn)行AI學(xué)習(xí),可以為自己的產(chǎn)品進(jìn)行AI賦能。(此處我們只針對(duì)于分關(guān)鍵性應(yīng)用進(jìn)行討論,即不需要AI科學(xué)家的崗位,只需要懂得利用開源框架和模型即可。)
1. 用AI解決方案代替?zhèn)鹘y(tǒng)的算法解決方案
舉例:新聞app的智能推薦功能
例如,以前今日頭條的智能推薦功能是基于對(duì)用戶行為路徑的研究得出的用戶模型,根據(jù)用戶的過去行為產(chǎn)生的數(shù)據(jù),對(duì)用戶當(dāng)下想看的或喜歡的內(nèi)容進(jìn)行預(yù)測(cè)并推送。概括講就是通過研究先找到用戶行為跟用戶喜歡之間的映射關(guān)系,然后根據(jù)映射關(guān)系寫好算法。
該解決方案的缺陷是:
- 找到準(zhǔn)確的映射關(guān)系難度大,并且很可能遺漏很多規(guī)律;
- 需要對(duì)用戶體驗(yàn)進(jìn)行優(yōu)化就需要更新算法,工作量大,且優(yōu)化周期偏長(zhǎng);
- 產(chǎn)品體驗(yàn)跟算法工程師的技術(shù)能力直接相關(guān),并非每一個(gè)公司都有足夠優(yōu)秀的算法工程師。
用AI方案替代:直接利用數(shù)據(jù)進(jìn)行訓(xùn)練,讓模型在學(xué)習(xí)的過程中自己找到映射關(guān)系,然后接入應(yīng)用。優(yōu)點(diǎn)是:
- 可以找到人未能總結(jié)出的一些規(guī)律,效果可能出乎意料;
- AI自己時(shí)時(shí)刻刻通過數(shù)據(jù)進(jìn)行自我升級(jí);
- 即使沒有算法工程師,也可以實(shí)現(xiàn)智能推送效果。
2. 在原app上添加AI功能
舉例:外賣app
利用AI增加個(gè)性化界面功能——讓app調(diào)用AI模型,利用用戶數(shù)據(jù)對(duì)AI模型進(jìn)行訓(xùn)練,讓AI找到不同行為的用戶分別有什么點(diǎn)餐習(xí)慣或者說屬于什么用戶行為模型。當(dāng)用戶進(jìn)入app時(shí),根據(jù)用戶之前的行為數(shù)據(jù),展示界面定制化呈現(xiàn)。
利用AI幫助用戶更快做出更佳選擇——用戶進(jìn)入外賣app時(shí),可以直接語音提問:
- 今天哪些店鋪活動(dòng)中?
- 有什么粵菜新店?
- ……
經(jīng)過語音識(shí)別、語音合成、專家系統(tǒng)訓(xùn)練的AI會(huì)迅速得出答案并回復(fù)用戶,同時(shí)帶上鏈接。如此用戶就可以快速完成下單。(其實(shí)AI對(duì)移動(dòng)互聯(lián)網(wǎng)的升級(jí)有更多方式,這個(gè)需要靠產(chǎn)品經(jīng)理對(duì)業(yè)務(wù)、用戶需求有足夠深度的理解并挖掘出來)。
六、AI產(chǎn)品經(jīng)理需要參與、推動(dòng)的重要流程
(1)分析用戶需求,找到痛點(diǎn)并思考用什么樣的AI方案進(jìn)行解決
(2)設(shè)計(jì)產(chǎn)品的后臺(tái)數(shù)據(jù)采集功能,保證數(shù)據(jù)的采集更方便機(jī)器學(xué)習(xí)時(shí)利用(設(shè)計(jì)產(chǎn)品時(shí),要分析出機(jī)器學(xué)習(xí)時(shí)需要的數(shù)據(jù)量、數(shù)據(jù)類型以及數(shù)據(jù)特征)
(3)與AI訓(xùn)練師溝通制定數(shù)據(jù)標(biāo)注規(guī)則
(4)與AI工程師進(jìn)行交流,告知AI工程師需要的AI模型,預(yù)期效果,以及與客戶端的數(shù)據(jù)交互需求。與用戶端工程師進(jìn)行交流,告知AI如何與客戶端進(jìn)行數(shù)據(jù)交互
(5)設(shè)計(jì)客戶端,推動(dòng)客戶端開發(fā)實(shí)現(xiàn)
(6)數(shù)據(jù)訓(xùn)練機(jī)器
準(zhǔn)備樣本數(shù)據(jù)(訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù))–為訓(xùn)練數(shù)據(jù)打標(biāo)簽–輸入帶標(biāo)簽的訓(xùn)練數(shù)據(jù)–輸入測(cè)試數(shù)據(jù)–查看擬合度,或調(diào)整模型參數(shù)–循環(huán)訓(xùn)練直至達(dá)到最佳擬合。
(7)檢查訓(xùn)練后的AI模型是否滿足需求。若不滿足,與AI工程師共同分析問題并找出解決方案
(8)將成型的AI產(chǎn)品面對(duì)“用戶角色”測(cè)試,無問題后上線正式運(yùn)營(yíng)
好了,要轉(zhuǎn)型做一個(gè)AI產(chǎn)品經(jīng)理的快學(xué)習(xí)指南就先到這里了,文末會(huì)有知識(shí)結(jié)構(gòu)的腦圖下載地址,以及參考文獻(xiàn)、推薦閱讀書籍。希望大家看完老狼的分享后,腦里可形成一個(gè)學(xué)習(xí)大綱,有了清晰的學(xué)習(xí)思路。
還有一個(gè)特別重要的事!如果你看完老狼的分享,還是對(duì)AI一無所知,為了讓你沒有白花時(shí)間看這篇文章,老狼告訴你一個(gè)特別的裝13技巧,當(dāng)大家都在各種拿AI吹水的時(shí)候,你點(diǎn)上一支香煙,45度抬頭,看著那一縷青煙,輕描淡寫地說道:其實(shí)AI很簡(jiǎn)單,它不過是一個(gè)函數(shù)。
云盤分享:腦圖分享–AI PM學(xué)習(xí)指南大綱
作者:鄧生,5年產(chǎn)品經(jīng)驗(yàn)
本文由 @老狼幾點(diǎn)了 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自 Pexels,基于 CC0 協(xié)議
老兄,想要轉(zhuǎn)AI產(chǎn)品經(jīng)理,有聯(lián)系方式嗎,想抱大腿
有沒有想在廣州工作的寶媽PM?有的話請(qǐng)留言哦
感謝分享,厲害,剛好需要有人幫助把知識(shí)點(diǎn)串起來。
厲害了,總結(jié)好全面
能不能留個(gè)微信向你學(xué)習(xí)啊。。。。。我的 miami291202
寫的不僅專業(yè)而且非常詳細(xì),目前正在學(xué)習(xí)AIPM的知識(shí)準(zhǔn)備轉(zhuǎn)型,謝謝你的分享
寫的特別特別特別好,感謝分享!但是請(qǐng)問您的腦圖有圖片版的嘛?嘻嘻
這得加好友 ??
nice,我是傳統(tǒng)B端產(chǎn)品經(jīng)理,有轉(zhuǎn)型AI產(chǎn)品的想法, 但是苦于沒有系統(tǒng)化的教材,一直找不到方向,你這篇文章對(duì)于我來說非常受用!另外有比較基礎(chǔ)的入門的書、以及算法介紹的書,可以推薦一下嗎?
非常好的文章,專門按照脈絡(luò)記錄了筆記,最喜歡你把算法講得這么通俗易懂,期待你后面的文章!
忙完了,就抽時(shí)間更新
MD,這是我目前見的文章中,最有良心的文章了。很多人寫的文章不是寬泛、不具體,就是到處copy爛大街的文章,這篇文章就PM日常工作內(nèi)容都闡述了,良心好文!
謝謝認(rèn)可哈
你好,我之前是做iOS開發(fā)的大概做了4年,專業(yè)是計(jì)算機(jī) ,女生如果轉(zhuǎn)向AI這個(gè)方向的話,有什么樣的一些建議嗎?謝謝啦
這個(gè)我就想不到建議咯。我的眼里,男女平等 ?? 都一樣的。
謝謝,總結(jié)很詳細(xì)。
不用謝,對(duì)大家有用就好
贊贊贊!不過沒找到“推薦閱讀書籍”,在腦圖里嗎,找了幾遍沒找到 ??
良心文章啊?。?!
非常清晰,內(nèi)容龐大。一次看不完。留個(gè)爪
看得我好暈 ??
本人互聯(lián)網(wǎng)b端產(chǎn)品經(jīng)理,現(xiàn)在想轉(zhuǎn)型AI產(chǎn)品經(jīng)理,請(qǐng)問樓主能否推薦下適合AI新人學(xué)習(xí)的書籍呢,感謝!
起點(diǎn)學(xué)院有一門《15天入門AI產(chǎn)品經(jīng)理》的課程,已經(jīng)開辦8期,幫助2500+同學(xué)成功入門,有需要的話可以加蘑菇微信了解哈(id:qdxymg)
老狼?廣州的么,貌似和你一起玩過桌游,受教了
您好,對(duì)于AI產(chǎn)品經(jīng)理的職責(zé),有2個(gè)問題請(qǐng)假下,有勞指點(diǎn)迷津啦:
(1)分析最佳的AI解決方案(比如用什么AI技術(shù)、哪一個(gè)模型)
這方面,采用什么技術(shù)、什么模型,這方面不應(yīng)該是拉算法團(tuán)隊(duì)一起開需求評(píng)審會(huì),或者技術(shù)方案討論會(huì)么? 這個(gè)問題的主導(dǎo),是不是應(yīng)該推動(dòng)算法團(tuán)隊(duì)去決策?
(2)同樣的問題,是對(duì)于“數(shù)據(jù)訓(xùn)練機(jī)器”部分,提到的查看擬合度、調(diào)整算法參數(shù)。也應(yīng)該是同樣配合技術(shù)團(tuán)隊(duì),一起操作吧?
我理解這方面工作,產(chǎn)品經(jīng)理只是可以配合,做簡(jiǎn)單實(shí)驗(yàn)、測(cè)試
(1),分享一個(gè)案例。我之前做一個(gè)問答功能,出題人不僅出題目,還會(huì)預(yù)埋答案,AI要以出題人預(yù)埋答案作為參考判斷答題人的答案得分。我們發(fā)現(xiàn)這跟中學(xué)考試一樣,其實(shí)是看答題人回答中體現(xiàn)了多少知識(shí)點(diǎn),體現(xiàn)相關(guān)知識(shí)點(diǎn)越多,說明答得越好。我們首先想到要從文本相似度算法中找一個(gè)最佳算法。通過對(duì)歐式距離算法、編輯距離算法、jacaard相似度算法等的理解(可以自己去了解這些文本相似度算法),選擇了jaccard相似度算法。因?yàn)閖acaard的算法邏輯是兩個(gè)文本之間相同的詞越多,相似度越高。
(2),工程師是負(fù)責(zé)跟機(jī)器直接溝通的人
不好意思,我寫的文章不商用
我現(xiàn)在很糾結(jié),我從事人力很多年了,對(duì)計(jì)算機(jī)類不懂,現(xiàn)在想轉(zhuǎn)型,想從0開始學(xué)習(xí)Ai產(chǎn)品經(jīng)理這塊,我不知道自己適合不?要不要培訓(xùn)機(jī)構(gòu)……
最好的方法是參與一個(gè)AI產(chǎn)品。或者參與一些廣告類產(chǎn)品,搜索引擎類產(chǎn)品
贊贊贊
?? 很良心的一篇文了,把最流行的人工智能算法全梳理了一遍,重點(diǎn)是:免費(fèi),免費(fèi),有沒有
又回來刷了一遍,上次是重點(diǎn)看算法,這次是看產(chǎn)品經(jīng)理這么做
??
做什么
前輩非常厲害,學(xué)習(xí)了! ?
過獎(jiǎng)了,歡迎持續(xù)關(guān)注,haha
厲害
謝謝哈
脈絡(luò)梳理的非常清晰,贊??
謝謝鼓勵(lì),希望持續(xù)關(guān)注,文章有寫的不好的地方歡迎點(diǎn)評(píng)
贊贊
謝謝鼓勵(lì),以后盡量多寫
機(jī)器學(xué)習(xí)只是人工智能的一個(gè)分支,當(dāng)然現(xiàn)在主流這個(gè)
目前也正在從事ai產(chǎn)品工作,樓主這篇文章算是比較好的科普文章了,支持
謝謝支持哦
贊
謝謝鼓勵(lì)
感謝作者的文章,非常棒。但目前感覺AI產(chǎn)品經(jīng)理門檻很高,學(xué)完之后找不到工作 ??
如果沒有過AI經(jīng)驗(yàn),那么有搜索產(chǎn)品經(jīng)驗(yàn)、廣告業(yè)務(wù)經(jīng)驗(yàn)等,找AI工作機(jī)會(huì)也會(huì)大一些。而且呢,產(chǎn)品經(jīng)理就是產(chǎn)品經(jīng)理,AI只是一個(gè)相對(duì)細(xì)分的產(chǎn)品方向罷了。爭(zhēng)取先到小公司做相關(guān)的項(xiàng)目,有經(jīng)驗(yàn)之后便可以找到滿意的工作了。祝好運(yùn)
有沒有相關(guān)教程推薦呢?我看文字感覺超級(jí)枯燥,看不下去
起點(diǎn)學(xué)院有一門《15天入門AI產(chǎn)品經(jīng)理》的課程,已經(jīng)開辦8期,幫助2500+同學(xué)成功入門,有需要的話可以加蘑菇微信了解哈(id:qdxymg)