成為AI產(chǎn)品經(jīng)理之前,可以先讀下這篇文章

51 評(píng)論 48902 瀏覽 339 收藏 66 分鐘

本文致力于讓完全沒有學(xué)習(xí)過AI的朋友可以輕松讀懂,enjoy~

先說一下,你閱讀本文可以得到什么。你能得到AI的理論知識(shí)框架;你能學(xué)習(xí)到如何成為一個(gè)AI產(chǎn)品經(jīng)理并且了解到AI產(chǎn)品經(jīng)理如何在工作中發(fā)揮作用,以及AI產(chǎn)品經(jīng)理需要從哪些方面鍛煉能力。最重要的是,通過本文,一切都特別快(手打滑稽)。

PS:目前只針對(duì)弱人工智能(我喜歡簡(jiǎn)稱,此處我們簡(jiǎn)稱為“弱智”)進(jìn)行學(xué)習(xí)。

首先我們必須要掌握的是AI的專業(yè)知識(shí)框架,然后了解AI的市場(chǎng)情況,最后要明白AI產(chǎn)品經(jīng)理的工作流程及在項(xiàng)目的價(jià)值體現(xiàn)。本文致力于讓完全沒有學(xué)習(xí)過AI的朋友可以輕松讀懂,獲取干貨。即使你不能完整理解AI也沒關(guān)系,最起碼看完本文之后你可以完美裝13,文末會(huì)有特別的裝13技巧送給你。

一、AI是什么

1. AI的定義

凡是通過機(jī)器學(xué)習(xí),實(shí)現(xiàn)機(jī)器替代人力的技術(shù),就是AI。機(jī)器學(xué)習(xí)是什么呢?機(jī)器學(xué)習(xí)是由AI科學(xué)家研發(fā)的算法模型,通過數(shù)據(jù)灌輸,學(xué)習(xí)數(shù)據(jù)中的規(guī)律并總結(jié),即模型內(nèi)自動(dòng)生成能表達(dá)(輸入、輸出)數(shù)據(jù)之間映射關(guān)系的特定算法。這整個(gè)過程就是機(jī)器學(xué)習(xí)。

AI模型是個(gè)“中間件”,不能直接與用戶完成交互,所以AI還是需要借助傳統(tǒng)的應(yīng)用程序,應(yīng)用程序直接與用戶進(jìn)行交互,同時(shí)提交輸入數(shù)據(jù)給模型,模型處理后返回輸出數(shù)據(jù)給應(yīng)用程序,應(yīng)用程序再轉(zhuǎn)化為合適的呈現(xiàn)方式反饋給用戶。

AI解決方案比互聯(lián)網(wǎng)解決方案有什么優(yōu)勢(shì):再也不需要去歸納總結(jié)知識(shí)和規(guī)律,然后進(jìn)行越來越復(fù)雜的編程,只需要用數(shù)據(jù)喂養(yǎng)機(jī)器,讓機(jī)器完成所有工作。而且傳統(tǒng)的互聯(lián)網(wǎng)解決方案遇到需要求變時(shí),是個(gè)頭痛的事,因?yàn)橹苯幼尮こ處煂?duì)程序、算法進(jìn)行修改的過程中會(huì)需要考慮很多既有程序帶來的限制及改動(dòng)后的未知風(fēng)險(xiǎn)(同時(shí)也容易造成人力成本更高),而AI模型是可以遷移、疊加利用的,所以需求變化時(shí),少了很多既有積累的東西帶來的問題。

2. AI的根基

AI的根基從數(shù)學(xué)理論開始,數(shù)學(xué)理論(包括:線性代數(shù)、概率論、統(tǒng)計(jì)學(xué)、微積分)的基礎(chǔ)上我們得以有機(jī)器學(xué)習(xí)理論,機(jī)器學(xué)習(xí)理論(包括:監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、遷移學(xué)習(xí)、深度學(xué)習(xí))的基礎(chǔ)上我們得以有基礎(chǔ)技術(shù),基礎(chǔ)技術(shù)(包括:機(jī)器學(xué)習(xí)ML、深度學(xué)習(xí)DL、語音識(shí)別ASR、語音合成TTS、計(jì)算機(jī)視覺CV、機(jī)器視覺MV、自然語言理解NLU、自然語言處理NLP、專家系統(tǒng))的基礎(chǔ)上AI應(yīng)用得以實(shí)現(xiàn)。

特別提醒:不僅是數(shù)學(xué)理論,物理理論也是AI的根基。在更深度的AI建模等理論需求中,很多所謂的“數(shù)學(xué)理論”其實(shí)原型來自于“物理理論”。比如熵的概念,比如多維空間的概念,都是出于物理學(xué)中的概念。

3. 機(jī)器學(xué)習(xí)理論詳解及算法模型介紹

關(guān)于模型算法的結(jié)果導(dǎo)向理解:

  • 對(duì)數(shù)據(jù)進(jìn)行分類;
  • 找到輸入數(shù)據(jù)與輸出數(shù)據(jù)之間的規(guī)律。

機(jī)器學(xué)習(xí)方式有多種,每種機(jī)器學(xué)習(xí)方式又有多種算法。機(jī)器學(xué)習(xí)方式可以配合利用,且各種算法模型也可以結(jié)合利用。

機(jī)器學(xué)習(xí)的抽象流程是:

  • 訓(xùn)練機(jī)器階段,讓模型對(duì)輸入數(shù)據(jù)進(jìn)行分類,且找到規(guī)律;
  • 測(cè)試階段,數(shù)據(jù)進(jìn)入模型時(shí),模型對(duì)數(shù)據(jù)進(jìn)行分類,每一個(gè)測(cè)試數(shù)據(jù)都?xì)w類到訓(xùn)練數(shù)據(jù)類別中對(duì)應(yīng)的一個(gè)類別,然后根據(jù)訓(xùn)練找到的規(guī)律計(jì)算出輸出值(即答案);
  • 欠擬合或者過擬合的情況下,要清洗訓(xùn)練數(shù)據(jù)、調(diào)整參數(shù)以及重復(fù)訓(xùn)練;達(dá)到最佳擬合后,機(jī)器學(xué)習(xí)完成。

3.1 監(jiān)督學(xué)習(xí)

通俗解釋:準(zhǔn)備好許多組問題和對(duì)應(yīng)答案,然后對(duì)機(jī)器說:當(dāng)你看到這個(gè)問題的時(shí)候,你就告訴人家這個(gè)答案。多次重復(fù)這樣的訓(xùn)練,然后機(jī)器從每一次的訓(xùn)練問題和對(duì)應(yīng)答案中找到了其中的規(guī)律(即算法)。然后你跟你朋友吹噓說,我的機(jī)器機(jī)靈得跟猴似的,不信你問它問題。你這位朋友開始提一大堆問題,提的問題大可以跟你訓(xùn)練的問題不同,機(jī)器人只是根據(jù)自己之前總結(jié)的規(guī)律推測(cè)出答案給對(duì)方。如果發(fā)現(xiàn)機(jī)器人說出的答案中錯(cuò)誤太多,那你就要修理修理它,再重新用更豐富的有標(biāo)記答案的問題訓(xùn)練一番,直到你的機(jī)器被人提問時(shí)回答準(zhǔn)確率特別高,達(dá)到你的期望了。這時(shí)候你就可以放心的跟你朋友炫耀:我的機(jī)器機(jī)靈得跟猴似的。

專業(yè)解釋:準(zhǔn)備樣本(樣本通常準(zhǔn)備兩組:訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)),先將訓(xùn)練數(shù)據(jù)(即標(biāo)記樣本)給到機(jī)器,同時(shí)提供標(biāo)準(zhǔn)答案(有答案的樣本數(shù)據(jù)屬于“標(biāo)記樣本”),機(jī)器盡量從訓(xùn)練數(shù)據(jù)中找到因變量和自變量之間的關(guān)系,讓自己推測(cè)的答案盡量跟標(biāo)準(zhǔn)答案靠近。訓(xùn)練過程中機(jī)器嘗試生成我們需要的算法,這個(gè)算法就是我們要機(jī)器學(xué)習(xí)出來的結(jié)果。然后我們給機(jī)器測(cè)試樣本(測(cè)試數(shù)據(jù)),不提供標(biāo)準(zhǔn)答案,看機(jī)器推理出答案的準(zhǔn)確率怎么樣,如果準(zhǔn)確率太低(欠擬合),那我們就要調(diào)整模型的參數(shù),并且再訓(xùn)練機(jī)器,接著又用測(cè)試數(shù)據(jù)測(cè)試,直到機(jī)器達(dá)到了我們期望的準(zhǔn)確率。

抽象一個(gè)最簡(jiǎn)單的邏輯公式:線性代數(shù)y=kx。我們提供n組x值及對(duì)應(yīng)y值作為訓(xùn)練數(shù)據(jù),模型經(jīng)過計(jì)算推測(cè)出k值(推測(cè)出k值這個(gè)過程我們叫做“回歸”),然后我們?cè)儆胢組測(cè)試數(shù)據(jù),但是此時(shí)只輸入x值,看機(jī)器得出的y值是否跟我們已知的正確答案y值是否相同。當(dāng)有多個(gè)緯度的特征時(shí),應(yīng)該抽象公式應(yīng)該是y=kx1+kx2+kx3,或者y=k1x1+k2x2+k3x3。當(dāng)然還有可能要考慮其他一些參數(shù),此時(shí)公式應(yīng)該為y=kx1+kx2+kx3+b,或y=k1x1+k2x2+k3x3+b。參數(shù)b是我們的AI工程師可以直接調(diào)整的,以便讓機(jī)器訓(xùn)練的結(jié)果最接近我們想要的結(jié)果。

監(jiān)督學(xué)習(xí)的算法分類:

(1)KNN臨近算法

在訓(xùn)練階段時(shí),機(jī)器將訓(xùn)練數(shù)據(jù)進(jìn)行分類(根據(jù)數(shù)據(jù)的feature,即數(shù)據(jù)的特征)。(邏輯推理出,在某些情況下模型可以找出來的數(shù)據(jù)之間的映射不止一條,即可能每一類數(shù)據(jù)會(huì)有一個(gè)映射關(guān)系。)當(dāng)測(cè)試數(shù)據(jù)輸入時(shí),機(jī)器會(huì)根據(jù)輸入數(shù)據(jù)的特征判斷該輸入數(shù)據(jù)跟哪一類的訓(xùn)練數(shù)據(jù)為同一類,在此判斷基礎(chǔ)上,機(jī)器便決定用哪一個(gè)映射關(guān)系來推測(cè)當(dāng)下輸入測(cè)試數(shù)據(jù)對(duì)應(yīng)的輸出數(shù)據(jù)(即答案)。機(jī)器是如何判斷測(cè)試時(shí)的輸入數(shù)據(jù)更接近哪一類訓(xùn)練數(shù)據(jù)的呢?用數(shù)學(xué)邏輯解釋就是,模型內(nèi)是一個(gè)多維空間,有一個(gè)多維坐標(biāo),每一緯是一個(gè)特征,當(dāng)一個(gè)訓(xùn)練數(shù)據(jù)輸入時(shí),該數(shù)據(jù)坐落在坐標(biāo)上某一點(diǎn),訓(xùn)練數(shù)據(jù)量大了之后,模型里的坐標(biāo)上有無數(shù)點(diǎn)。當(dāng)測(cè)試數(shù)據(jù)輸入后,根據(jù)測(cè)試數(shù)據(jù)的特征在坐標(biāo)上為它找到一個(gè)點(diǎn),機(jī)器會(huì)找與該點(diǎn)歐式距離最近的點(diǎn)(訓(xùn)練數(shù)據(jù)的點(diǎn))是哪一個(gè),并且將該點(diǎn)視為與找到的距離最近的訓(xùn)練數(shù)據(jù)的點(diǎn)為同一類。

舉個(gè)栗子:Mary喜歡玩探探,在她眼里,探探里的男銀分3類。第一類是不喜歡,左劃;第二類是喜歡,右劃;第三類是超級(jí)喜歡,點(diǎn)星星。第一類男銀的共同點(diǎn)是單眼皮、低鼻梁、禿頂、穿安踏;第二類的共同點(diǎn)是雙眼皮、高鼻梁、茂密的頭發(fā),穿西裝;第三類的共同點(diǎn)是帶名牌手表,照片旁邊有一輛跑車。AI了解Mary后,開始為Mary把關(guān)。當(dāng)AI看到一個(gè)男銀上探探,就會(huì)看這個(gè)男銀是否單眼皮,鼻梁接近于高還是低,頭發(fā)多少,著裝幼稚還是成熟,然后將這個(gè)男銀為第一類或者第二類,第一類的直接幫Mary劃掉,第二類的直接幫Mary點(diǎn)喜歡。還有,當(dāng)AI看到一個(gè)男銀帶名牌表,有豪車,直接幫Mary點(diǎn)一個(gè)超級(jí)喜歡。然后Mary不用那么累地全部都要點(diǎn)一遍,AI幫她選的人她都挺滿意,她一臉的滿足。

(2)決策樹ID3算法

基于“決策樹”的理論的一種算法。根據(jù)數(shù)據(jù)特征進(jìn)行分支,直到不可再分支,此時(shí)決策樹成形,數(shù)據(jù)也被分出一類來,成形的一個(gè)決策樹表現(xiàn)了這一類數(shù)據(jù)的所有特征。

示意圖(Jennifer去相親):

該決策樹形成后(一條分枝將特征消化完之后),我們視滿足該條分枝上所有特征的為同一類人(即我們分出了一類數(shù)據(jù))。憑經(jīng)驗(yàn)推測(cè),這類人就是Jennifer最后選擇的結(jié)婚對(duì)象。(如果你不知道我指的是哪一條,那你這輩子一定都找不到老婆)

決策樹ID3算法與KNN算法的區(qū)別在于:KNN算法需要始終保存并持續(xù)使用所有訓(xùn)練數(shù)據(jù),決策樹ID3算法完成決策樹之后,可以不再保存所有的訓(xùn)練數(shù)據(jù)了(可以清清內(nèi)存),只需要將決策樹模型保留下來,便可以對(duì)新數(shù)據(jù)進(jìn)行高準(zhǔn)確率地分類。

(3)logistic邏輯回歸算法

當(dāng)特征和結(jié)果不滿足線性時(shí)(函數(shù)大于一次方時(shí)),就可以用邏輯回歸算法。邏輯回歸是一個(gè)非線性模型,它的因變量(x)跟線性回歸函數(shù)不相同。邏輯回歸同樣用來解決分類問題,呈二項(xiàng)分布(示意圖1),它只輸出兩種結(jié)果,0或1(實(shí)際情況是輸出為0~0.5,或0.5~1,小于0.5取值0,大于等于0.5取值1),0和1分別代表兩個(gè)類別。作為產(chǎn)品經(jīng)理,我們不需要去理解模型內(nèi)部是怎么回事(反正我目前也沒看懂模型內(nèi)部到底怎么回事),我們只需要了解,當(dāng)特征和結(jié)果,即X與Y之間的關(guān)系不滿足線性關(guān)系(函數(shù)大于一次方),就可以利用邏輯回歸算法,算法得出的值約等于1或約等于0,約等于1時(shí)該輸入數(shù)據(jù)屬于一類,約等于0時(shí)該輸入數(shù)據(jù)屬于另一類?;蛟S以后在實(shí)戰(zhàn)中,你的AI工程師搭檔會(huì)跟你講解,看了這篇文章,你在聽你的AI工程師解釋的時(shí)候不會(huì)茫然吧。

邏輯回歸的基礎(chǔ)公式:

示意圖1:

(4)支持向量機(jī)SVM

主要優(yōu)勢(shì)就是可以判斷到分類是否正確。

先給大家舉一個(gè)例,當(dāng)我們要分割一個(gè)平面,會(huì)用一條線,即分割二維數(shù)據(jù)用一維數(shù)據(jù);如果我們要分割一個(gè)立體空間,會(huì)用一個(gè)面,即分割三維數(shù)據(jù)用二維數(shù)據(jù)。理解例子后,就可以理解SVM的原理了。

SVM的原理就是用一個(gè)N-1維的“分割超平面”線性分開N維空間,而所有數(shù)據(jù)都在這個(gè)空間內(nèi)各為一點(diǎn)。每一次分割超平面開始切分,都在將空間內(nèi)的數(shù)據(jù)分為兩部分(假設(shè)為A、B兩邊),模型的目的就是讓分出來的兩部分?jǐn)?shù)據(jù)是兩個(gè)類別,我們要理解在A這邊的每個(gè)數(shù)據(jù)點(diǎn)到分割超平面的距離為正值,那么另一邊(B那邊)的數(shù)據(jù)點(diǎn)到分割超平面的距離就一定為負(fù)值(我們把分割超平面看作是臨界面吧,或者看作是“海平面”,兩邊的點(diǎn)朝著臨界面直線出發(fā)時(shí),方向是相對(duì)的,這樣解釋大家就能明白為什么說一邊為正值另一邊就為負(fù)值了)。

當(dāng)模型計(jì)算所有特征相同的數(shù)據(jù)各自到分割超平面的距離時(shí),若都為正值(我們默認(rèn)這些特征相同的數(shù)據(jù)所占邊是A邊),那么分割正確,我們就知道空間內(nèi)所有數(shù)據(jù)被準(zhǔn)確無誤地分為兩類了。若發(fā)現(xiàn)有出現(xiàn)負(fù)值的,那一定是有至少一個(gè)數(shù)據(jù)站錯(cuò)邊了,換一種說法是我們這個(gè)分割超平面分割得不對(duì),分割超平面就會(huì)重新分割,直到分割完全正確。因?yàn)槔碚撋现v,分割超平面是一個(gè)多維空間的任意維度的“面”,它可以在數(shù)據(jù)任何分布的情況下都剛好把不同類(不同特征)的數(shù)據(jù)一分為二,保證它的分割不會(huì)讓任意一個(gè)數(shù)據(jù)“站錯(cuò)邊”。

借用幾張經(jīng)典示意圖幫助理解:

這只是一個(gè)簡(jiǎn)單示意圖,但是我們要發(fā)揮空間想象力,如果不能看起來是一條直線分割兩邊,那就讓看起來是一條曲線的分割超平面分割兩邊,但是這條曲線其實(shí)不是曲線,它是一個(gè)多維面。(這個(gè)多維空間真的燒腦,我記得網(wǎng)上有個(gè)很經(jīng)典的10分鐘理解多維空間的視頻,大家可以去搜一搜)

(5)樸素貝葉斯分類算法

首先說明一點(diǎn):KNN算法、決策樹ID3算法、logistic回歸算法、SVM都是屬于判別方法,而樸素貝葉斯算法是屬于生成方法。樸素貝葉斯算法的邏輯是:每一個(gè)訓(xùn)練數(shù)據(jù)輸入時(shí),計(jì)算該數(shù)據(jù)被分到每一個(gè)類別的概率,最后視概率最大的那一個(gè)為該輸入數(shù)據(jù)的類別。跟邏輯回歸一樣,作為產(chǎn)品經(jīng)理,大家只要記住宏觀邏輯就好了(手打調(diào)皮)。

公式:

3.2 無監(jiān)督學(xué)習(xí)

通俗解釋:你準(zhǔn)備一大堆問題丟給你的機(jī)器,每一個(gè)問題都不告訴它答案,叫它自己把問題分類了。它開始識(shí)別所有問題分別都是什么特征,然后開始將這些問題分類,比如A類、B類、C類。分類好了之后,你又對(duì)你朋友炫耀:我的機(jī)器機(jī)靈得跟猴似的,不信你問它問題。然后你朋友問它: “女朋友說自己感冒了應(yīng)該怎么回復(fù)她?”機(jī)器想了想,發(fā)現(xiàn)這個(gè)問題跟自己歸類的A類問題一樣,于是它就隨口用A類問題里的一個(gè)代表性問題作為回答:“女朋友說自己大姨媽來了該怎么回復(fù),你就怎么回復(fù)?!蹦愕呐笥延X得機(jī)器是理解了他的問題,但是他還是不知道該怎么回復(fù)女朋友啊,失望的走了。這個(gè)時(shí)候你發(fā)現(xiàn)你的機(jī)器回答方式不好呀,于是你告訴機(jī)器,不要用問題回答問題,你順便給了他的A類問題一個(gè)統(tǒng)一答案,就是“多喝熱水”。然后你叫你朋友再問一次機(jī)器,你朋友又來問了一次機(jī)器:“女朋友說自己感冒了我該怎么回復(fù)。”機(jī)器馬上回答:“叫她多喝熱水呀。”你朋友一聽,恍然大悟,開開心心地走了。

專業(yè)解釋:機(jī)器學(xué)習(xí)是否有監(jiān)督,就看訓(xùn)練時(shí)輸入的數(shù)據(jù)是否有標(biāo)簽(標(biāo)簽即標(biāo)注輸入數(shù)據(jù)對(duì)應(yīng)的答案)。無監(jiān)督學(xué)習(xí)即訓(xùn)練時(shí)輸入數(shù)據(jù)無標(biāo)簽,無監(jiān)督學(xué)習(xí)利用聚類算法。無監(jiān)督學(xué)習(xí)不利用“回歸”方式找到規(guī)律。其他的跟監(jiān)督學(xué)習(xí)基本相同。

(1)K-聚類(聚類算法)

K-means聚類是一種矢量量化的方法,給定一組向量,K-means算法將這些數(shù)據(jù)組織成k個(gè)子集,使得每個(gè)向量屬于最近的均值所在的子集。在特征學(xué)習(xí)中,K-means算法可以將一些沒有標(biāo)簽的輸入數(shù)據(jù)進(jìn)行聚類,然后使每個(gè)類別的“質(zhì)心”來生成新的特征。

換種說法就是:K個(gè)子集中每個(gè)子集都計(jì)算出一個(gè)均值,每個(gè)均值在空間里都為一個(gè)“質(zhì)心”,根據(jù)輸入數(shù)據(jù)的特征及特征值為它找到一個(gè)點(diǎn),這個(gè)點(diǎn)最接近哪個(gè)“質(zhì)心”,我們就視該數(shù)據(jù)屬于哪個(gè)子集,即與該子集所有數(shù)據(jù)為同一類。

(2)主成分分析法

容我偷個(gè)懶,這個(gè)我自己還未真正學(xué)習(xí)懂,所以就不寫了,后面出現(xiàn)未具體解釋的東西都是我還未學(xué)習(xí)明白的內(nèi)容。爭(zhēng)取只寫我真正自己學(xué)懂的東西,怕未完全明白的基礎(chǔ)上寫的東西容易出現(xiàn)誤導(dǎo)。但是我會(huì)在接下來的學(xué)習(xí)中把余下的AI知識(shí)都學(xué)好,并盡量再發(fā)文跟大家分享。

3.3 半監(jiān)督學(xué)習(xí)

半監(jiān)督學(xué)習(xí)其實(shí)就是監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)的方法合并利用,訓(xùn)練數(shù)據(jù)有一部分是有標(biāo)簽的,有一部分是無標(biāo)簽的,通常無標(biāo)簽的數(shù)據(jù)量比有標(biāo)簽的數(shù)據(jù)量大很多。

半監(jiān)督學(xué)習(xí)的好處是:

  • 降低打標(biāo)簽的人工成本的情況下讓模型可以得到很好的優(yōu)化;
  • 大量的沒辦法打標(biāo)簽的數(shù)據(jù)得以被利用起來,保證訓(xùn)練數(shù)據(jù)的量,從而讓訓(xùn)練結(jié)果更佳。

狹義上【半監(jiān)督學(xué)習(xí)】要分為transductive SVM、inductive SVM、Co-training、label propagation;我們可以嘗試用另外一種方法分類【半監(jiān)督學(xué)習(xí)】,即“分類半監(jiān)督”、“聚類半監(jiān)督”。

  • 分類半監(jiān)督--舉例說明就是先用標(biāo)簽數(shù)據(jù)進(jìn)行訓(xùn)練,然后加入無標(biāo)簽數(shù)據(jù)訓(xùn)練,無標(biāo)簽數(shù)據(jù)輸入時(shí),會(huì)根據(jù)數(shù)據(jù)特征及特征值,看該數(shù)據(jù)與有標(biāo)簽數(shù)據(jù)分類中哪一類更接近(支持向量機(jī)SVM的方法就可以幫助找到最接近哪一類),就視為該類數(shù)據(jù);或者是,看該數(shù)據(jù)與有標(biāo)簽數(shù)據(jù)哪一個(gè)最接近(KNN的方法就可以找到最接近的那個(gè)數(shù)據(jù)),則把該無標(biāo)簽數(shù)據(jù)替換為該標(biāo)簽數(shù)據(jù)。
  • 聚類半監(jiān)督–通常是在有標(biāo)簽數(shù)據(jù)的“標(biāo)簽不確定”的情況下利用(比如這個(gè)輸入數(shù)據(jù)的答案可能是xxx),“聚類半監(jiān)督”就是重點(diǎn)先完成數(shù)據(jù)的分類,然后嘗試根據(jù)標(biāo)簽數(shù)據(jù)訓(xùn)練提供的標(biāo)簽預(yù)測(cè)結(jié)果。
  • S3VM算法
  • S4VM算法
  • CS4VM算法
  • TSVM算法

3.4 強(qiáng)化學(xué)習(xí)

通俗解釋:你準(zhǔn)備一大堆問題,每個(gè)問題有多個(gè)答案選項(xiàng),其中只有一個(gè)選項(xiàng)是正確答案。手里拿著皮鞭,讓你的機(jī)器一個(gè)個(gè)問題的從選項(xiàng)里挑答案回答,回答正確了,你就溫柔的默默它的頭,回答錯(cuò)誤了,你就抽它丫的。所有問題都回答完了之后,再重復(fù)一次所有問題。然后你就發(fā)現(xiàn),你的機(jī)器每一次重復(fù),正確率都提高一些,直到最后正確率達(dá)到你的期望值了,這時(shí)候機(jī)器基本也從撫摸和抽打中找到了每一個(gè)問題的正確答案。機(jī)器通過一次次去猜測(cè)問題和答案之間的規(guī)律(即算法),一次次更新規(guī)律,最后也找到了最準(zhǔn)確那條規(guī)律(最佳算法),這時(shí),它機(jī)靈得跟猴一樣。(當(dāng)然實(shí)際過程里,只需要獎(jiǎng)勵(lì)機(jī)制就夠了,但是你想同時(shí)給懲罰機(jī)制,也可以的。)

專業(yè)解釋:我自己的理解,把強(qiáng)化學(xué)習(xí)理論分一和二,其中一是完全按照馬爾科夫決策過程的理論,需要理解環(huán)境,在每一步動(dòng)作時(shí)都得到一個(gè)反饋并計(jì)算下一步該怎么動(dòng)作更好;二是不需要理解環(huán)境,只需要在執(zhí)行完之后接收環(huán)境反饋的信號(hào),然后它才明白之前的動(dòng)作好不好,下次會(huì)堅(jiān)持或改變同樣情況下要執(zhí)行的動(dòng)作。

(1)強(qiáng)化學(xué)習(xí)理論一

agent(下文會(huì)講agent是什么,此處可以理解為機(jī)器本身)需要理解環(huán)境、分析環(huán)境,并且要推測(cè)出完成一個(gè)動(dòng)作得到獎(jiǎng)勵(lì)的概率。該理論完全滿足馬爾科夫決策。馬爾可夫的核心:在一個(gè)狀態(tài)下,可以采取一些動(dòng)作,每一個(gè)動(dòng)作都有一個(gè)“轉(zhuǎn)化狀態(tài)”且可以得出對(duì)應(yīng)“轉(zhuǎn)化狀態(tài)”的概率(或該“轉(zhuǎn)化狀態(tài)”能獲取獎(jiǎng)勵(lì)的概率)。而強(qiáng)化學(xué)習(xí)的目標(biāo)就是學(xué)習(xí)怎樣讓每一次行動(dòng)都是為了達(dá)到最有價(jià)值的“轉(zhuǎn)化狀態(tài)”上。

  • model based(算法:Qleaning, Sarsa, Policy Gradients):理解真實(shí)環(huán)境,建立一個(gè)模擬環(huán)境的模型,有想象能力,根據(jù)想象預(yù)判結(jié)果,最后選擇想象中結(jié)果最好的那一種作為參考進(jìn)行下一步。
  • policy based(算法:Policy Gradients,? Actor-critic):通過感官分析環(huán)境,推測(cè)出下一步要進(jìn)行的各種動(dòng)作的概率,取概率最大的作為實(shí)際行動(dòng)的參考。
  • value based(算法:Qleaning, Sarsa):推測(cè)出所有動(dòng)作的價(jià)值,根據(jù)價(jià)值最高的作為實(shí)際動(dòng)作的參考。
  • On policy(算法:Sarsa,? Sarsa lambda):必須親自參與
  • Off policy(算法:Qleaning,? Deep-Q-Network):可親自參與;也可以不親自參與,通過觀看其他人或機(jī)器,對(duì)其他人或機(jī)器進(jìn)行模仿。

(2)強(qiáng)化學(xué)習(xí)理論二

agent不需要理解環(huán)境、分析環(huán)境時(shí),做出決策,該決策正確時(shí)獎(jiǎng)勵(lì),錯(cuò)誤時(shí)不獎(jiǎng)勵(lì)或懲罰。agent不會(huì)在動(dòng)作時(shí)去計(jì)算是否得到獎(jiǎng)勵(lì)的概率。

強(qiáng)化學(xué)習(xí)中的4個(gè)要素:agent(一個(gè)智能體,可以為一個(gè)算法模型,或直接理解成機(jī)器本身)、environment(環(huán)境,環(huán)境對(duì)于agent是獨(dú)立的,它可以是一個(gè)硬件設(shè)備、強(qiáng)化學(xué)習(xí)之外的某種機(jī)器學(xué)習(xí)模型等,它的任務(wù)就是當(dāng)action結(jié)束后用它的方式給agent一個(gè)信號(hào))、action(動(dòng)作)、reward(獎(jiǎng)勵(lì))。

agent能夠執(zhí)行多種action,但它每次只能選擇一個(gè)action來執(zhí)行,agent任意執(zhí)一個(gè)action來改變當(dāng)前狀態(tài),一個(gè)action被執(zhí)行后,environment會(huì)通過觀測(cè)得出一個(gè)observation,這個(gè)observation會(huì)被agent接收,同時(shí)會(huì)出現(xiàn)一個(gè)reward也會(huì)被agent接收(這個(gè)reward也來自于environment,environment可以通過推測(cè)或直接判斷action結(jié)束時(shí)達(dá)到的效果是否是AI工程師想要的效果來決定這個(gè)reward是正值還是負(fù)值,當(dāng)然負(fù)值相當(dāng)于是“懲罰”了)。

agent在執(zhí)行action時(shí)并不會(huì)知道結(jié)果會(huì)怎樣,當(dāng)agent接收到environment的observation時(shí),agent仍然是一無所知的(因?yàn)閍gent不理解environment),但由于environment同時(shí)反饋reward,agent才知道執(zhí)行的action好還是不好。agent會(huì)記住這次reward是正值還是負(fù)值,以后的action都會(huì)參考這次記憶。強(qiáng)化學(xué)習(xí)理論二對(duì)比一的區(qū)別就是:二并非在每一步都計(jì)算一個(gè)概率(所以二并非完全符合馬爾科夫決策)。

  • model free(算法:Qleaning, Sarsa, Policy Gradients):不理解環(huán)境,等待環(huán)境反饋,根據(jù)反饋進(jìn)行下一步。
  • Monte-carlo update(算法:Policy Gradients,? Monte-carlo leaning):等待所有過程結(jié)束,事后總結(jié)所有轉(zhuǎn)折點(diǎn)
  • Temporal difference update(算法:Qleaning, Sarsa):過程中每一步都總結(jié)一下
  • On policy(算法:Sarsa,? Sarsa lambda):必須親自參與
  • Off policy(算法:Qleaning,? Deep-Q-Network):可親自參與;也可以不親自參與,通過觀看其他人或機(jī)器,對(duì)其他人或機(jī)器進(jìn)行模仿。

強(qiáng)化學(xué)習(xí)不糾結(jié)于找出一條規(guī)律/算法,它只關(guān)心結(jié)果輸出時(shí)能否得到獎(jiǎng)勵(lì)。之前提到的機(jī)器學(xué)習(xí)都是解決分類問題,而強(qiáng)化學(xué)習(xí)是解決“決策”問題。

3.5 遷移學(xué)習(xí)

通俗解釋:當(dāng)你的機(jī)器用以上幾種方式中任何一種方式學(xué)習(xí)完之后,你叫你的機(jī)器把學(xué)習(xí)后找到的規(guī)律(算法)寫在它的筆記本上。然后換一種學(xué)習(xí)方式,讓它繼續(xù)學(xué)習(xí),叫它用第二種方法學(xué)習(xí)的時(shí)候要看筆記本,把新學(xué)到的知識(shí)也寫上去,但是不能跟原筆記沖突,也不能修改原筆記。連續(xù)用多種方法讓你的機(jī)器學(xué)習(xí),它肯定比猴更機(jī)靈。

專業(yè)解釋:將一個(gè)已經(jīng)開發(fā)過的任務(wù)模型(源域)重復(fù)利用,作為第二個(gè)任務(wù)模型(目標(biāo)域)的起點(diǎn)。深度學(xué)習(xí)中會(huì)經(jīng)常用到遷移學(xué)習(xí),遷移時(shí)(復(fù)用時(shí)),可以全部使用或部分使用第一個(gè)模型(源任務(wù)模型),當(dāng)然這取決于第一個(gè)模型的建模邏輯是否允許。遷移學(xué)習(xí)是特別好的降低(獲取樣本數(shù)據(jù)、打標(biāo)簽)成本的方法。

(1)樣本遷移法

看看目標(biāo)域的樣本數(shù)據(jù)跟源域中訓(xùn)練數(shù)據(jù)哪部分相似,把目標(biāo)域中這部分樣本數(shù)據(jù)的特征值照著相似的源域中的樣本數(shù)據(jù)的特征值調(diào)整,盡量調(diào)到一樣,然后再把調(diào)過的數(shù)據(jù)權(quán)重值提高。這個(gè)方法是最簡(jiǎn)單的遷移學(xué)習(xí)方法,不過人工去調(diào),如果經(jīng)驗(yàn)不足,容易造成極大誤差。

(2)特征遷移法

找到源域同目標(biāo)域的數(shù)據(jù)中的共同特征,將這些共同特征的數(shù)據(jù)都放到同一個(gè)坐標(biāo)空間里,形成一個(gè)數(shù)據(jù)分布。這樣就可以得到一個(gè)數(shù)據(jù)量更大且更優(yōu)質(zhì)的模型空間。(之前提到很多模型算法對(duì)輸入數(shù)據(jù)分類時(shí)都要依靠模型里虛擬的空間,這個(gè)空間的質(zhì)量越好,分類效果越好)。

(3)模型遷移法

源域的整個(gè)模型都遷移到目標(biāo)域。最完整的遷移,但是可能會(huì)因?yàn)樵从蚰P偷奶赜械哪切?duì)目標(biāo)域來說沒有的數(shù)據(jù)、特征、特征值等,在目標(biāo)域中反而會(huì)有干擾效果(類似與“過擬合”)。

(4)關(guān)系遷移法

當(dāng)兩個(gè)域相似時(shí),可以直接將源域的邏輯網(wǎng)絡(luò)關(guān)系在目標(biāo)域中進(jìn)行應(yīng)用。比如我們將人的大腦神經(jīng)網(wǎng)絡(luò)的邏輯關(guān)系遷移到AI神經(jīng)網(wǎng)絡(luò)中,因?yàn)閺倪壿嬌线@兩者我們覺得是一樣的。

3.6 深度學(xué)習(xí)

深度學(xué)習(xí)可以理解為是多個(gè)簡(jiǎn)單模型組合起來,實(shí)現(xiàn)多層神經(jīng)網(wǎng)絡(luò),每層神經(jīng)網(wǎng)絡(luò)(也可以叫做神經(jīng)元)處理一次數(shù)據(jù),然后傳遞到下一層繼續(xù)處理。這種多層的結(jié)構(gòu)比起淺層學(xué)習(xí)的模型優(yōu)勢(shì)在于,可以提取出數(shù)據(jù)特征(無需人工提?。!吧疃取辈]有絕對(duì)的定義,語音識(shí)別的模型中4層神經(jīng)網(wǎng)絡(luò)就算深了,但在圖像識(shí)別的模型中,20層也不算很深。

(1)DNN深度神經(jīng)網(wǎng)絡(luò)

深度神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)最基礎(chǔ)的神經(jīng)網(wǎng)絡(luò)。有很多層(每一層為一個(gè)神經(jīng)元)從上往下排列,每一個(gè)層相互連接。有個(gè)缺點(diǎn)就是,正因?yàn)槊恳粚又g連接起來,出現(xiàn)了參數(shù)數(shù)量膨脹問題(因?yàn)槊恳粚由婕暗揭粋€(gè)算法,每一個(gè)算法都有自己的各種參數(shù)),這樣的情況下容易過擬合(實(shí)現(xiàn)了局部最佳但整體擬合不佳)。

(2)CNN卷積神經(jīng)網(wǎng)絡(luò)

卷積神經(jīng)網(wǎng)絡(luò)有“卷積核”,這個(gè)“卷積核”可以作為介質(zhì)連接神經(jīng)元,用“卷積核”連接神經(jīng)元時(shí)就不需要每一層都連接了。

(3)RNN循環(huán)神經(jīng)網(wǎng)絡(luò)

因?yàn)镈NN還有一個(gè)缺點(diǎn),無法對(duì)時(shí)間序列上發(fā)生的變化進(jìn)行建模,如果在語音識(shí)別、自然語言處理等應(yīng)用中使用AI模型時(shí),數(shù)據(jù)的時(shí)間順序影響很大。所以RNN就出現(xiàn)了,RNN能彌補(bǔ)DNN的缺點(diǎn),可以在時(shí)間序列上發(fā)生的變化進(jìn)行建模。

4. 重要的關(guān)鍵詞解釋

4.1 擬合

擬合是用來形容訓(xùn)練結(jié)束后效果好壞的。

(1)欠擬合

當(dāng)訓(xùn)練數(shù)據(jù)少、數(shù)據(jù)質(zhì)量差的時(shí)候,訓(xùn)練出來的模型質(zhì)量就差(或者說損失函數(shù)過大),這時(shí)進(jìn)行測(cè)試的時(shí)候,就會(huì)出現(xiàn)誤差大,即“欠擬合”狀況。

(2)過擬合

在訓(xùn)練階段,反復(fù)用同樣的訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練,可以讓訓(xùn)練效果變得更好(損失函數(shù)小),但同時(shí)機(jī)器會(huì)因?yàn)橐_(dá)到最好的訓(xùn)練效果,將訓(xùn)練數(shù)據(jù)中不重要的特征或只有訓(xùn)練數(shù)據(jù)才有的某些特征進(jìn)行利用得太重或開始學(xué)習(xí)不需要的細(xì)節(jié),也就是說機(jī)器對(duì)訓(xùn)練數(shù)據(jù)太過依賴,最后就會(huì)出現(xiàn)在訓(xùn)練數(shù)據(jù)上表現(xiàn)特別好,但在其他數(shù)據(jù)上表現(xiàn)不佳。這樣的情況叫做“過擬合“。

(3)最佳擬合

欠擬合、過擬合都不是我們需要的。我們要的是最佳擬合。所以我們?cè)谟?xùn)練機(jī)器時(shí)要注意平衡。最佳點(diǎn)在哪里呢?最佳點(diǎn)在訓(xùn)練的損失函數(shù)還在減小,而測(cè)試的損失函數(shù)在減小之后突然開始增大的該點(diǎn)上。此時(shí)我們就達(dá)到了“最佳擬合”。

4.2 泛化性

訓(xùn)練好的模型在其他數(shù)據(jù)上的表現(xiàn)好壞用泛化性形容。在其他數(shù)據(jù)上表現(xiàn)越好,泛化性越高。

4.3 損失函數(shù)

用于評(píng)估“不準(zhǔn)確”的程度,它是衡量模型估算值和真實(shí)值差距的標(biāo)準(zhǔn)。損失函數(shù)(loss)越小,則模型的估算值和真實(shí)值的差距越小,通常情況下我們要把loss降到最低。

4.4 香農(nóng)熵

形容信息量大小。機(jī)器學(xué)習(xí)中重要是用于衡量特征的數(shù)量多少。一個(gè)數(shù)據(jù)的特征越多,說明我們可以從這個(gè)數(shù)據(jù)中獲得的信息越多,也就可以說香農(nóng)熵高。順便提一下,決策樹的生成過程,就是降低香農(nóng)熵的過程。

4.5 標(biāo)簽

指給數(shù)據(jù)標(biāo)記的答案。標(biāo)記好答案的數(shù)據(jù)叫做“標(biāo)簽數(shù)據(jù)”。

4.6 特征值

特征(feature)的值。比如房子有特征(feature):空間、價(jià)格。它的特征值:(空間)200平方米、(價(jià)格)1500萬。一般在機(jī)器學(xué)習(xí)的監(jiān)督學(xué)習(xí)中,我們需要對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行特征提取的處理,即標(biāo)記好每個(gè)數(shù)據(jù)有哪些特征和對(duì)應(yīng)特征值。

當(dāng)特征值損失的情況:

在實(shí)際的機(jī)器學(xué)習(xí)過程中,有時(shí)候會(huì)發(fā)生數(shù)據(jù)缺失的問題,比如一個(gè)數(shù)據(jù)有X個(gè)特征,但是由于意外發(fā)生,我們只得到部分(小于X)特征的值,在這種情況下,為了不浪費(fèi)整個(gè)樣本資源,且可以順利的繼續(xù)機(jī)器學(xué)習(xí),我們需要有一些彌補(bǔ)措施:

  1. 認(rèn)為設(shè)置某些特征的特征值(根據(jù)經(jīng)驗(yàn)),然后利用;
  2. 找到相似的另一組樣本,用另一組樣本的特征平均值代替缺失的特征值;
  3. 用其他的機(jī)器學(xué)習(xí)模型專門針對(duì)缺失的特征值進(jìn)行學(xué)習(xí)然后利用該模型找出缺失特征值;
  4. 使用已有特征值的均值來替代未知特征值;
  5. 在機(jī)器學(xué)習(xí)過程中用一些方法,讓機(jī)器忽略已缺失特征值的數(shù)據(jù)。

4.7 類別

物以類聚人以群分,特征相同的數(shù)據(jù)就是同一類別。機(jī)器學(xué)習(xí)中特別重要的一個(gè)步驟就是利用算法將數(shù)據(jù)分類(學(xué)習(xí)算法里邊會(huì)提到多種實(shí)現(xiàn)數(shù)據(jù)分類的算法),機(jī)器會(huì)盡量將所有輸入數(shù)據(jù)進(jìn)行分類,分類的邏輯就是通過數(shù)據(jù)的“特征”,特征接近的數(shù)據(jù)會(huì)被機(jī)器認(rèn)為是同一類別的數(shù)據(jù)。

4.8 分類&聚類

分類是目前最簡(jiǎn)單也是效果最好的一類算法(比如KNN、決策樹ID3、logistic回歸、SVM等都屬于分類算法)。分類算法的前提條件是訓(xùn)練數(shù)據(jù)必須帶有標(biāo)簽。

聚類是目前相對(duì)分類更復(fù)雜同時(shí)效果更差的一類算法(無監(jiān)督學(xué)習(xí)就是用聚類算法)。聚類算法的優(yōu)勢(shì)是可以訓(xùn)練數(shù)據(jù)不需要標(biāo)簽。表面上看來分類算法比聚類算法好用很多,那我們還要用聚類算法的理由是什么呢?其實(shí),在實(shí)際情況下,訓(xùn)練機(jī)器時(shí),要給數(shù)據(jù)打標(biāo)簽是個(gè)人工消耗極大的工作,不僅工作量大,很多時(shí)候?qū)?shù)據(jù)打準(zhǔn)確的標(biāo)簽難度也大。

4.9 決策樹

根據(jù)數(shù)據(jù)的特征值對(duì)數(shù)據(jù)進(jìn)行不斷分支,直到不可再分支(附 決策樹形象圖)。決策樹的每一次對(duì)數(shù)據(jù)分支,就消耗一個(gè)特征值。當(dāng)所有特征值消耗完后,決策樹成形。決策樹的每一個(gè)節(jié)點(diǎn),即每一次對(duì)特征分支時(shí),通常以yes/no的判斷形式進(jìn)行劃分(所以才叫“決策樹”嘛)。

決策樹幫助機(jī)器對(duì)數(shù)據(jù)進(jìn)行分類(根據(jù)特征,決策樹的分裂點(diǎn)即特征分別點(diǎn)),決策樹形成后,滿足一條分枝上所有分裂點(diǎn)條件的為同一類數(shù)據(jù)。要注意的是,有時(shí)候決策樹分枝太長(zhǎng),會(huì)導(dǎo)致過擬合。因?yàn)闆Q策樹很可能把訓(xùn)練數(shù)據(jù)中不太有代表性的特征放在分裂點(diǎn)上,這樣形成的決策樹不適應(yīng)與訓(xùn)練數(shù)據(jù)之外的數(shù)據(jù)了。如果出現(xiàn)這種情況,需要“剪枝”,枝越長(zhǎng),說明模型可能越依賴訓(xùn)練數(shù)據(jù),在枝的長(zhǎng)短上,要做一個(gè)平衡,平衡的原則請(qǐng)參考本文提到的“欠擬合”與“過擬合”的關(guān)鍵詞解釋。

我們用最簡(jiǎn)單的決策樹二叉樹抽象示意圖來表達(dá)我們招聘產(chǎn)品經(jīng)理時(shí)的一個(gè)面試判斷過程:

有時(shí)候分裂點(diǎn)上有數(shù)值判斷,這些數(shù)值都叫做“閾值”。在決策樹中,對(duì)閾值的使用越合理,訓(xùn)練形成的決策樹效果越好,用在數(shù)據(jù)上越精確。請(qǐng)查看簡(jiǎn)化決策樹示意圖2:

4.10 知識(shí)圖譜

知識(shí)圖譜是模擬物理世界的實(shí)物與實(shí)物之間的關(guān)系,知識(shí)圖譜呈現(xiàn)為無限擴(kuò)散的類網(wǎng)狀結(jié)構(gòu)。它的結(jié)構(gòu)組成為“實(shí)體”–“關(guān)系”–“實(shí)體”,以及“實(shí)體”–“屬性”–“值”。知識(shí)圖譜使得AI找到一個(gè)信息時(shí),同時(shí)也獲得了更多跟跟這個(gè)信息相關(guān)的其他信息。希望大家可以具體去看知識(shí)圖譜相關(guān)書籍,該知識(shí)還是相對(duì)容易看明白的。

知識(shí)圖譜簡(jiǎn)化示意圖:

其中“老狼–女朋友–斯嘉麗約翰遜”,就是實(shí)體–關(guān)系–實(shí)體,“老狼–生日–3月29”和“斯嘉麗約翰遜–罩杯–D”就是實(shí)體–屬性–值。舉一個(gè)利用知識(shí)圖譜的常見栗子:當(dāng)有人問AI:“老狼有女朋友嗎?”AI有自然語言處理的支撐,就可以識(shí)別到這個(gè)人在向它提問,且在詢問老狼的女朋友這件事。同時(shí)有知識(shí)圖譜的支撐,AI就可以準(zhǔn)確回答:“老狼有個(gè)叫斯嘉麗約翰遜的女朋友,是個(gè)D罩杯的美女呢?!?/p>

5. 基礎(chǔ)技術(shù)

5.1 語音識(shí)別(ASR)

一句話定義就是:將人類聲音轉(zhuǎn)化成文字的過程。

按識(shí)別范圍分類為“封閉域識(shí)別”和“開放域識(shí)別”。

  • 封閉域識(shí)別:在預(yù)先指定的字/詞集合內(nèi)進(jìn)行識(shí)別。如此可將聲學(xué)模型和語音模型進(jìn)行剪裁,識(shí)別引擎的計(jì)算量也變低??梢詫⒁娣庋b于嵌入式芯片或本地化SDK,脫離云端,且不會(huì)影響識(shí)別率;
  • 開放域識(shí)別:在整個(gè)語言大集合中識(shí)別。引擎計(jì)算量大,直接封裝到嵌入式芯片或本地SDK中,耗能高且識(shí)別效果差,所以一般都只以云端形式提供。(更詳細(xì)的介紹可看文末分享的腦圖)

5.2 計(jì)算機(jī)視覺(CV)

一句話定義:計(jì)算機(jī)對(duì)生物視覺的模擬。通過采集圖片、視頻進(jìn)行處理,以獲取相應(yīng)場(chǎng)景的三維信息。

計(jì)算機(jī)視覺的三步驟為成像、早期視覺、識(shí)別理解。其中成像原理跟相機(jī)原理相同,成像質(zhì)量受光照影響、模糊、噪聲、分辨率的影響,我們需要去找到好的方法來解決光照、模糊等問題。早期視覺又有圖像分割(將特定影像分割成“區(qū)域內(nèi)部屬性一致”而“區(qū)域間不一致”的技術(shù))、邊緣求取(找到圖像中的亮度變化劇烈的像素點(diǎn)構(gòu)成的集合,即找出輪廓)、運(yùn)動(dòng)及深度估計(jì)三種方法。識(shí)別理解是最后一步,即把一張圖片對(duì)應(yīng)到一個(gè)文字或標(biāo)簽(根據(jù)機(jī)器找到的映射關(guān)系得出輸出)。

計(jì)算機(jī)視覺的三種應(yīng)用介紹:人臉識(shí)別、多目標(biāo)跟蹤、光學(xué)符號(hào)識(shí)別。

  • 人臉識(shí)別的技術(shù)流程:人臉采集–人臉檢測(cè)–圖像預(yù)處理–特征提取–人臉匹配與識(shí)別。在實(shí)際流程當(dāng)中,每一個(gè)環(huán)節(jié)都有對(duì)應(yīng)的注意事項(xiàng),詳情請(qǐng)看老狼在文末準(zhǔn)備的腦圖。
  • 多目標(biāo)追蹤的技術(shù)流程:圖像采集–圖像預(yù)處理–基于深度學(xué)習(xí)的多目標(biāo)檢測(cè)識(shí)別–多目標(biāo)跟蹤–輸出結(jié)果。在實(shí)際流程當(dāng)中,每一個(gè)環(huán)節(jié)都有對(duì)應(yīng)的注意事項(xiàng),詳情請(qǐng)看老狼在文末準(zhǔn)備的腦圖。
  • 光學(xué)符號(hào)識(shí)別的技術(shù)流程:圖像采集–圖像預(yù)處理–特征提取–文字定位–光學(xué)識(shí)別。在實(shí)際流程當(dāng)中,每一個(gè)環(huán)節(jié)都有對(duì)應(yīng)的注意事項(xiàng),詳情請(qǐng)看老狼在文末準(zhǔn)備的腦圖。

5.3 自然語言處理(NLP)

一句話定義:自然語言處理(NLP)是指機(jī)器理解并解釋人類寫作、說話方式的能力。

NLP又包含NLU(自然語言理解)、NLG(自然語言生成)。自然語言處理中最重要的3個(gè)環(huán)節(jié)是分詞、鎖定關(guān)鍵詞、文本相似度計(jì)算。因?yàn)槟壳皺C(jī)器的語言識(shí)別其實(shí)都是基于對(duì)詞的識(shí)別,任何句子進(jìn)行自然語言處理時(shí)第一步都是要分詞,比如:“我是產(chǎn)品經(jīng)理”,分詞后變成“我-是-產(chǎn)品-經(jīng)理”。分詞之后,要找到“關(guān)鍵詞”,“關(guān)鍵詞”是提供重要信息、最多信息的詞,比如在“我是產(chǎn)品經(jīng)理”句子被分詞后,機(jī)器會(huì)選擇“產(chǎn)品”、“經(jīng)理”為該句子“關(guān)鍵詞”。文本相似度有歐氏距離、曼哈頓距離等算法,詳情看老狼的腦圖。

6. 技術(shù)分層

從技術(shù)實(shí)現(xiàn)的效果的角度將AI技術(shù)進(jìn)行分層:

  • 認(rèn)知,通過收集、解析信息對(duì)世界和環(huán)境進(jìn)行認(rèn)知。包括圖片處理技術(shù)、語音識(shí)別、自然語言識(shí)別技術(shù)。
  • 預(yù)測(cè)行為和結(jié)果。比如在用戶行為研究的基礎(chǔ)上根據(jù)對(duì)用戶當(dāng)前行為的識(shí)別,預(yù)測(cè)用戶下一步想做什么,然后主動(dòng)滿足用戶。
  • 確定實(shí)現(xiàn)的方式和路徑。比如AI代替醫(yī)生給病人看病,得出病癥和治病方案。

7. AI的常用語言及框架

市場(chǎng)上有的AI框架包括TensorFlow、Caffe、Torch、Theano等等,目前大部分工程師利用的是Tensorflow。AI編程可以利用多種計(jì)算機(jī)語言,目前最常用的是C++和python。

想要實(shí)操練習(xí)的小伙伴,到Google官方網(wǎng)站,按照官方的教程安裝TensorFlow,安裝好之后,你就可以用它提供的多個(gè)API來訓(xùn)練機(jī)器學(xué)習(xí)模型了。

8. AI的價(jià)值

互聯(lián)網(wǎng)的價(jià)值在于降低成本、提高效率;而AI 可以替代人力,讓成本直接為0,其蘊(yùn)含的市場(chǎng)價(jià)值比互聯(lián)網(wǎng)技術(shù)的市場(chǎng)價(jià)值更高。

二、AI的邊界

要理解AI的邊界,就必須從AI三要素切入。三要素分別為算法、計(jì)算力、數(shù)據(jù)。我們通過對(duì)已有模型算法的理解,計(jì)算力的認(rèn)知以及對(duì)可獲取數(shù)據(jù)的判斷,就可以推測(cè)出我們落地時(shí)可實(shí)現(xiàn)哪些,以及可實(shí)現(xiàn)到什么程度。

有一個(gè)宏觀判斷邊界的快捷法,叫做“1秒法則”:當(dāng)前的AI可以實(shí)現(xiàn)到處理人1秒內(nèi)可以想到答案的問題。而且這個(gè)問題還得滿足以下特點(diǎn):大規(guī)模、重復(fù)性、限定領(lǐng)域。

三、AI的市場(chǎng)情況

1. AI應(yīng)用分類

關(guān)鍵性應(yīng)用:需要算法準(zhǔn)確度在99.9999%以上的應(yīng)用。比如無人駕駛汽車、手術(shù)機(jī)器人等。

非關(guān)鍵性應(yīng)用:只需要算法準(zhǔn)確度在99%或95%以上的應(yīng)用。例如人臉識(shí)別、廣告推送等。

關(guān)鍵性應(yīng)用對(duì)算法要求極高,需要特別優(yōu)秀的AI算法專家來推動(dòng)實(shí)現(xiàn)。非關(guān)鍵性應(yīng)用對(duì)算法要求相對(duì)低,借助開源算法即可以進(jìn)行落地。關(guān)鍵性應(yīng)用的關(guān)鍵角色是AI算法專家(AI 科學(xué)家)、非關(guān)鍵性應(yīng)用的關(guān)鍵角色則是AI PM 。

2. AI的市場(chǎng)化

由于云計(jì)算解決了計(jì)算力的問題,又有開源算法以及Google等公司開放的框架可利用,很多AI產(chǎn)品的落地條件只剩下找到數(shù)據(jù)了。而一些有數(shù)據(jù)積累的互聯(lián)網(wǎng)公司在這一點(diǎn)上具備先發(fā)優(yōu)勢(shì),比如百度、阿里、騰訊,都開始搶奪下一個(gè)商業(yè)風(fēng)口(AI)了。百度已經(jīng)是all in AI 了,目前百度的無人汽車駕駛已經(jīng)初見成效,離大規(guī)模商品化不遠(yuǎn)。阿里利用AI為自己的服務(wù)進(jìn)行各種升級(jí),比如人臉識(shí)別、人臉解鎖等等,現(xiàn)在阿里布局的新零售線下無人超市等必不可缺AI支持。騰訊的計(jì)算機(jī)識(shí)別相關(guān)軟件已經(jīng)成熟并等待深度商業(yè)化。另外一些小一點(diǎn)且針對(duì)領(lǐng)域相對(duì)垂直的互聯(lián)網(wǎng)公司,如喜馬拉雅、美團(tuán)等,都開始為自己的應(yīng)用或服務(wù)AI 賦能。(此處針對(duì)非關(guān)鍵性應(yīng)用介紹)

過去多年互聯(lián)網(wǎng)的發(fā)展很好地打下了數(shù)據(jù)基礎(chǔ),互聯(lián)網(wǎng)應(yīng)用是很好的數(shù)據(jù)采取端口。產(chǎn)品經(jīng)理要負(fù)責(zé)AI產(chǎn)品的時(shí)候同樣需要多花心思設(shè)計(jì)應(yīng)用的數(shù)據(jù)采集體系,使得可更高效地采集數(shù)據(jù),且采集數(shù)據(jù)更便于形成優(yōu)質(zhì)樣本。

順便說下短期市場(chǎng)趨勢(shì)——專家系統(tǒng)。“專家系統(tǒng)”也是AI模型里很重要的一部分,我們可以簡(jiǎn)單理解為“專家系統(tǒng)”就是針對(duì)一個(gè)專業(yè)領(lǐng)域進(jìn)行專業(yè)知識(shí)的訓(xùn)練而獲得的模型,“專家系統(tǒng)”其實(shí)就是機(jī)器復(fù)制行業(yè)專家的專業(yè)能力,并替代其完成工作。比如醫(yī)療專家系統(tǒng)AI、股票專家系統(tǒng)AI。前者是替代醫(yī)生進(jìn)行診斷看病并輸出結(jié)果,后者是替代股票專家?guī)陀脩舴治龉墒屑巴扑]股票。“專家系統(tǒng)”的訓(xùn)練要依靠行業(yè)專家或?qū)<铱偨Y(jié)的專業(yè)知識(shí),行業(yè)專家要參與訓(xùn)練和測(cè)試效果。目前市場(chǎng)里某些領(lǐng)域的“專家系統(tǒng)”已經(jīng)相當(dāng)成熟了,“專家系統(tǒng)”也是最容易直接創(chuàng)造商業(yè)價(jià)值的AI。目前大公司的AI框架所開放的API已經(jīng)足夠訓(xùn)練成熟的“專家系統(tǒng)”,只需要滿足條件:1)有專家知識(shí);2)有足夠多的優(yōu)質(zhì)數(shù)據(jù)。

3. 硬件&軟件

AI的產(chǎn)品可以分為硬件AI(包括硬軟結(jié)合AI)、軟件AI。其中硬件AI產(chǎn)品的落地成本更高、風(fēng)險(xiǎn)更大、周期更長(zhǎng),所以目前市場(chǎng)資本對(duì)軟件AI公司更偏好一些,拿到投資的這類公司的量也多一些。2018年開始后的兩三年內(nèi),亮相市場(chǎng)的AI產(chǎn)品應(yīng)該大量都是軟件類,甚至說大量的AI產(chǎn)品就來自于移動(dòng)互聯(lián)網(wǎng)產(chǎn)品的升級(jí)(AI賦能)。比如美團(tuán)外賣app已經(jīng)加了AI機(jī)器人服務(wù)功能,還有微軟識(shí)花等純AI的app…

4. AI市場(chǎng)的人才需求

目前人才需求是市場(chǎng)第一需求。人才包括新興崗位:AI算法科學(xué)家、AI工程師、人工智能訓(xùn)練師、AI產(chǎn)品經(jīng)理、數(shù)據(jù)標(biāo)注專員。涉及到關(guān)鍵性應(yīng)用時(shí),AI算法科學(xué)家、AI工程師是最稀缺且第一需求人才;涉及到非關(guān)鍵性應(yīng)用時(shí),AI產(chǎn)品經(jīng)理為最稀缺且第一需求人才。

目前市場(chǎng)在嘗試各行各領(lǐng)域的AI產(chǎn)品,但由于AI產(chǎn)品經(jīng)理的匱乏,大部分進(jìn)展過慢或難以開展。市場(chǎng)需要更多的合格的AI產(chǎn)品經(jīng)理,合格的AI產(chǎn)品經(jīng)理需要對(duì)AI認(rèn)知全面且懂得如何與實(shí)際的市場(chǎng)需求相聯(lián)系,同時(shí)還需要有對(duì)新的需求場(chǎng)景的開發(fā)、摸索(所以AI產(chǎn)品經(jīng)理還是得具備行業(yè)經(jīng)驗(yàn),對(duì)行業(yè)理解深刻)。

四、AI項(xiàng)目中的分工

1. AI科學(xué)家

崗位職責(zé):

研究機(jī)器學(xué)習(xí)算法、AI模型(通常只有關(guān)鍵性應(yīng)用的項(xiàng)目才會(huì)需要AI科學(xué)家)。

2. AI工程師

崗位職責(zé):

利用模型進(jìn)行編程,負(fù)責(zé)調(diào)整模型參數(shù),以及數(shù)據(jù)訓(xùn)練的操作。

3. AI訓(xùn)練師

(1)崗位職責(zé)

通過分析產(chǎn)品需求及相關(guān)數(shù)據(jù),制定數(shù)據(jù)標(biāo)注規(guī)則,提高數(shù)據(jù)標(biāo)注工作質(zhì)量和效率,同時(shí)累積細(xì)分領(lǐng)域通用數(shù)據(jù)。

(2)崗位需求背景

  • 數(shù)據(jù)標(biāo)注是AI項(xiàng)目中最重要的環(huán)節(jié)之一。一般情況下需要由數(shù)據(jù)標(biāo)注員來完成數(shù)據(jù)標(biāo)注(即給訓(xùn)練數(shù)據(jù)打標(biāo)簽),但是數(shù)據(jù)標(biāo)注員對(duì)數(shù)據(jù)的理解的不同會(huì)造成標(biāo)注質(zhì)量差異大,導(dǎo)致整個(gè)標(biāo)注工作的效率和效果都不好。
  • AI公司在其細(xì)分領(lǐng)域可能累積了大量數(shù)據(jù),但是由于缺少對(duì)數(shù)據(jù)的正確管理,使得這些數(shù)據(jù)難以沉淀、復(fù)用,使用一次之后難以再發(fā)揮價(jià)值。所以AI訓(xùn)練師成為了必要。

(3)具體工作內(nèi)容

  • 通過聚類算法、標(biāo)注分析等方式,以及憑借對(duì)行業(yè)的理解,從數(shù)據(jù)中結(jié)合行業(yè)場(chǎng)景提取特征。輸出表達(dá)清晰準(zhǔn)確的數(shù)據(jù)標(biāo)注規(guī)則。
  • 輔助AI工程師的工作,并進(jìn)行數(shù)據(jù)驗(yàn)收。參與核心指標(biāo)的制定以及指標(biāo)監(jiān)督。日常跟蹤數(shù)據(jù)。(偏向于運(yùn)營(yíng)的工作)
  • 根據(jù)細(xì)分領(lǐng)域的數(shù)據(jù)應(yīng)用需求,從已有數(shù)據(jù)中挑選符合要求的通用數(shù)據(jù),形成數(shù)據(jù)沉淀、積累。
  • 提出細(xì)化的數(shù)據(jù)需求,以及提出產(chǎn)品優(yōu)化建議。該工作需要和AI產(chǎn)品經(jīng)理進(jìn)行大量溝通
  • 分配數(shù)據(jù)標(biāo)注員的工作,對(duì)數(shù)據(jù)標(biāo)注員的工作進(jìn)行培訓(xùn)、指導(dǎo)。以及驗(yàn)收數(shù)據(jù)(檢查數(shù)據(jù)標(biāo)注員工作結(jié)果)。該工作需要和數(shù)據(jù)標(biāo)注員進(jìn)行大量溝通。

(4)兩個(gè)側(cè)重方向

AI訓(xùn)練師有兩個(gè)側(cè)重方向:

  • 一是重前期的數(shù)據(jù)挖掘工作及輔助AI工程師的工作,保證產(chǎn)品落地;
  • 二是重后期的產(chǎn)品運(yùn)營(yíng),提升產(chǎn)品體驗(yàn)。根據(jù)不同項(xiàng)目的需求而定側(cè)重方向。

(5)能力模型

  • 數(shù)據(jù)能力——會(huì)使用科學(xué)的數(shù)據(jù)獲取方法,能利用excel之類的數(shù)據(jù)處理工具。
  • 行業(yè)背景——熟悉公司行業(yè)領(lǐng)域知識(shí),以及數(shù)據(jù)特點(diǎn)(比如語言、圖像)。
  • 分析能力——基于產(chǎn)品數(shù)據(jù)需求,提煉問題特征,輸出優(yōu)化方案。
  • 溝通能力——能通俗易懂的闡釋專業(yè)術(shù)語,與各崗位同事交流都能切換頻道。
  • AI技術(shù)理解力——特別是跟AI工程師交流時(shí)能厘清AI概念,并判斷技術(shù)邊界(能不能做,能做到什么程度)。
  • AI行業(yè)理解力——具備AI行業(yè)知識(shí)框架。

4. AI產(chǎn)品經(jīng)理

(1)崗位職責(zé)

理解行業(yè)及用戶,收集/挖掘需求、分析需求,做出產(chǎn)品戰(zhàn)略規(guī)劃,并設(shè)計(jì)產(chǎn)品解決方案、分析最佳的AI解決方案(比如用什么AI技術(shù)、哪一個(gè)模型),與AI訓(xùn)練師溝通、AI工程師溝通,完成產(chǎn)品demo,推動(dòng)產(chǎn)品上線,跟蹤數(shù)據(jù),做出產(chǎn)品優(yōu)化方案。

(2)崗位需求背景

無論在哪個(gè)領(lǐng)域,做產(chǎn)品都需要產(chǎn)品經(jīng)理。只不過在AI領(lǐng)域,需要對(duì)AI行業(yè)知識(shí)理解深刻的產(chǎn)品經(jīng)理,這樣的產(chǎn)品經(jīng)理具備邊界判斷的能力以及判斷最佳解決方案的能力,我們把這樣的產(chǎn)品經(jīng)理叫AI產(chǎn)品經(jīng)理。

(3)具體工作內(nèi)容

  • 調(diào)研行業(yè),理解行業(yè)業(yè)務(wù),收集或挖掘行業(yè)需求;
  • 深刻理解需求,分析目標(biāo)用戶,輸出用戶畫像;
  • 定位產(chǎn)品,制定產(chǎn)品戰(zhàn)略(結(jié)合對(duì)市場(chǎng)發(fā)展趨勢(shì)、競(jìng)品等的理解);
  • 找出解決需求的方案,并轉(zhuǎn)化為AI產(chǎn)品;選擇最佳AI解決方案(帶著需求和產(chǎn)品規(guī)劃與AI工程師、AI訓(xùn)練師深度溝通),并判斷落地可行性及可實(shí)現(xiàn)程度;參與制定數(shù)據(jù)標(biāo)注規(guī)則;
  • 設(shè)計(jì)產(chǎn)品,輸出產(chǎn)品demo及各種文檔(流程圖、PRD等);
  • 向AI訓(xùn)練師收集產(chǎn)品優(yōu)化建議;
  • 優(yōu)化產(chǎn)品;
  • 評(píng)估產(chǎn)品,計(jì)劃開發(fā)(UI設(shè)計(jì)及開發(fā))階段、周期。制定驗(yàn)收標(biāo)準(zhǔn);
  • 驗(yàn)收產(chǎn)品,與運(yùn)營(yíng)對(duì)接,上線。

(4)能力模型

  • AI技術(shù)理解力——跟AI工程師交流時(shí)能厘清AI概念,判斷技術(shù)邊界(能不能做,能做到什么程度);能結(jié)合產(chǎn)品體驗(yàn),做好交互設(shè)計(jì),使得AI部分的表現(xiàn)形式最佳;了解需要什么樣的數(shù)據(jù),甚至設(shè)計(jì)最佳數(shù)據(jù)采集功能,使應(yīng)用可以更好的采集高質(zhì)量數(shù)據(jù),累積以備利用。
  • AI行業(yè)理解力(加創(chuàng)造力)——具備AI行業(yè)知識(shí)框架。能結(jié)合系統(tǒng)的AI知識(shí)展開邏輯性的思維發(fā)散,考慮AI帶來的新行業(yè)的可能性。
  • 傳統(tǒng)互聯(lián)網(wǎng)產(chǎn)品經(jīng)理的通用能力

5. 數(shù)據(jù)標(biāo)注員

(1)崗位職責(zé)

負(fù)責(zé)給數(shù)據(jù)打標(biāo)簽的執(zhí)行工作。

(2)崗位需求背景

數(shù)據(jù)標(biāo)注是個(gè)工作量極大的工作,且專業(yè)度要求不高。

(3)具體工作內(nèi)容

  • 按照規(guī)則預(yù)訓(xùn)練,評(píng)估規(guī)則及工時(shí);
  • 按規(guī)則完成要求的數(shù)據(jù)標(biāo)簽;
  • 交付已標(biāo)注數(shù)據(jù)。

PS:AI產(chǎn)品經(jīng)理和AI訓(xùn)練師具備類似的能力模型,只是工作側(cè)重點(diǎn)不同,AI訓(xùn)練師負(fù)責(zé)更細(xì)分的數(shù)據(jù)工作。目前市場(chǎng)上的AI訓(xùn)練師大部分來自產(chǎn)品經(jīng)理的轉(zhuǎn)型。而AI 產(chǎn)品經(jīng)理可以直接兼顧AI訓(xùn)練師的職責(zé),即不需要AI訓(xùn)練師,只要AI產(chǎn)品經(jīng)理。

五、PM對(duì)互聯(lián)網(wǎng)產(chǎn)品AI升級(jí)

很多移動(dòng)互聯(lián)網(wǎng)的產(chǎn)品都可以進(jìn)行AI升級(jí),所以建議產(chǎn)品經(jīng)理們進(jìn)行AI學(xué)習(xí),可以為自己的產(chǎn)品進(jìn)行AI賦能。(此處我們只針對(duì)于分關(guān)鍵性應(yīng)用進(jìn)行討論,即不需要AI科學(xué)家的崗位,只需要懂得利用開源框架和模型即可。)

1. 用AI解決方案代替?zhèn)鹘y(tǒng)的算法解決方案

舉例:新聞app的智能推薦功能

例如,以前今日頭條的智能推薦功能是基于對(duì)用戶行為路徑的研究得出的用戶模型,根據(jù)用戶的過去行為產(chǎn)生的數(shù)據(jù),對(duì)用戶當(dāng)下想看的或喜歡的內(nèi)容進(jìn)行預(yù)測(cè)并推送。概括講就是通過研究先找到用戶行為跟用戶喜歡之間的映射關(guān)系,然后根據(jù)映射關(guān)系寫好算法。

該解決方案的缺陷是:

  1. 找到準(zhǔn)確的映射關(guān)系難度大,并且很可能遺漏很多規(guī)律;
  2. 需要對(duì)用戶體驗(yàn)進(jìn)行優(yōu)化就需要更新算法,工作量大,且優(yōu)化周期偏長(zhǎng);
  3. 產(chǎn)品體驗(yàn)跟算法工程師的技術(shù)能力直接相關(guān),并非每一個(gè)公司都有足夠優(yōu)秀的算法工程師。

用AI方案替代:直接利用數(shù)據(jù)進(jìn)行訓(xùn)練,讓模型在學(xué)習(xí)的過程中自己找到映射關(guān)系,然后接入應(yīng)用。優(yōu)點(diǎn)是:

  1. 可以找到人未能總結(jié)出的一些規(guī)律,效果可能出乎意料;
  2. AI自己時(shí)時(shí)刻刻通過數(shù)據(jù)進(jìn)行自我升級(jí);
  3. 即使沒有算法工程師,也可以實(shí)現(xiàn)智能推送效果。

2. 在原app上添加AI功能

舉例:外賣app

利用AI增加個(gè)性化界面功能——讓app調(diào)用AI模型,利用用戶數(shù)據(jù)對(duì)AI模型進(jìn)行訓(xùn)練,讓AI找到不同行為的用戶分別有什么點(diǎn)餐習(xí)慣或者說屬于什么用戶行為模型。當(dāng)用戶進(jìn)入app時(shí),根據(jù)用戶之前的行為數(shù)據(jù),展示界面定制化呈現(xiàn)。

利用AI幫助用戶更快做出更佳選擇——用戶進(jìn)入外賣app時(shí),可以直接語音提問:

  • 今天哪些店鋪活動(dòng)中?
  • 有什么粵菜新店?
  • ……

經(jīng)過語音識(shí)別、語音合成、專家系統(tǒng)訓(xùn)練的AI會(huì)迅速得出答案并回復(fù)用戶,同時(shí)帶上鏈接。如此用戶就可以快速完成下單。(其實(shí)AI對(duì)移動(dòng)互聯(lián)網(wǎng)的升級(jí)有更多方式,這個(gè)需要靠產(chǎn)品經(jīng)理對(duì)業(yè)務(wù)、用戶需求有足夠深度的理解并挖掘出來)。

六、AI產(chǎn)品經(jīng)理需要參與、推動(dòng)的重要流程

(1)分析用戶需求,找到痛點(diǎn)并思考用什么樣的AI方案進(jìn)行解決

(2)設(shè)計(jì)產(chǎn)品的后臺(tái)數(shù)據(jù)采集功能,保證數(shù)據(jù)的采集更方便機(jī)器學(xué)習(xí)時(shí)利用(設(shè)計(jì)產(chǎn)品時(shí),要分析出機(jī)器學(xué)習(xí)時(shí)需要的數(shù)據(jù)量、數(shù)據(jù)類型以及數(shù)據(jù)特征)

(3)與AI訓(xùn)練師溝通制定數(shù)據(jù)標(biāo)注規(guī)則

(4)與AI工程師進(jìn)行交流,告知AI工程師需要的AI模型,預(yù)期效果,以及與客戶端的數(shù)據(jù)交互需求。與用戶端工程師進(jìn)行交流,告知AI如何與客戶端進(jìn)行數(shù)據(jù)交互

(5)設(shè)計(jì)客戶端,推動(dòng)客戶端開發(fā)實(shí)現(xiàn)

(6)數(shù)據(jù)訓(xùn)練機(jī)器

準(zhǔn)備樣本數(shù)據(jù)(訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù))–為訓(xùn)練數(shù)據(jù)打標(biāo)簽–輸入帶標(biāo)簽的訓(xùn)練數(shù)據(jù)–輸入測(cè)試數(shù)據(jù)–查看擬合度,或調(diào)整模型參數(shù)–循環(huán)訓(xùn)練直至達(dá)到最佳擬合。

(7)檢查訓(xùn)練后的AI模型是否滿足需求。若不滿足,與AI工程師共同分析問題并找出解決方案

(8)將成型的AI產(chǎn)品面對(duì)“用戶角色”測(cè)試,無問題后上線正式運(yùn)營(yíng)

好了,要轉(zhuǎn)型做一個(gè)AI產(chǎn)品經(jīng)理的快學(xué)習(xí)指南就先到這里了,文末會(huì)有知識(shí)結(jié)構(gòu)的腦圖下載地址,以及參考文獻(xiàn)、推薦閱讀書籍。希望大家看完老狼的分享后,腦里可形成一個(gè)學(xué)習(xí)大綱,有了清晰的學(xué)習(xí)思路。

還有一個(gè)特別重要的事!如果你看完老狼的分享,還是對(duì)AI一無所知,為了讓你沒有白花時(shí)間看這篇文章,老狼告訴你一個(gè)特別的裝13技巧,當(dāng)大家都在各種拿AI吹水的時(shí)候,你點(diǎn)上一支香煙,45度抬頭,看著那一縷青煙,輕描淡寫地說道:其實(shí)AI很簡(jiǎn)單,它不過是一個(gè)函數(shù)。

云盤分享:腦圖分享–AI PM學(xué)習(xí)指南大綱

 

作者:鄧生,5年產(chǎn)品經(jīng)驗(yàn)

本文由 @老狼幾點(diǎn)了 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自 Pexels,基于 CC0 協(xié)議

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 老兄,想要轉(zhuǎn)AI產(chǎn)品經(jīng)理,有聯(lián)系方式嗎,想抱大腿

    來自上海 回復(fù)
  2. 有沒有想在廣州工作的寶媽PM?有的話請(qǐng)留言哦

    來自廣東 回復(fù)
  3. 感謝分享,厲害,剛好需要有人幫助把知識(shí)點(diǎn)串起來。

    來自湖北 回復(fù)
  4. 厲害了,總結(jié)好全面

    來自廣東 回復(fù)
  5. 能不能留個(gè)微信向你學(xué)習(xí)啊。。。。。我的 miami291202

    來自江蘇 回復(fù)
  6. 寫的不僅專業(yè)而且非常詳細(xì),目前正在學(xué)習(xí)AIPM的知識(shí)準(zhǔn)備轉(zhuǎn)型,謝謝你的分享

    來自廣東 回復(fù)
  7. 寫的特別特別特別好,感謝分享!但是請(qǐng)問您的腦圖有圖片版的嘛?嘻嘻

    來自湖北 回復(fù)
    1. 這得加好友 ??

      來自廣東 回復(fù)
  8. nice,我是傳統(tǒng)B端產(chǎn)品經(jīng)理,有轉(zhuǎn)型AI產(chǎn)品的想法, 但是苦于沒有系統(tǒng)化的教材,一直找不到方向,你這篇文章對(duì)于我來說非常受用!另外有比較基礎(chǔ)的入門的書、以及算法介紹的書,可以推薦一下嗎?

    來自上海 回復(fù)
  9. 非常好的文章,專門按照脈絡(luò)記錄了筆記,最喜歡你把算法講得這么通俗易懂,期待你后面的文章!

    來自四川 回復(fù)
    1. 忙完了,就抽時(shí)間更新

      來自四川 回復(fù)
  10. MD,這是我目前見的文章中,最有良心的文章了。很多人寫的文章不是寬泛、不具體,就是到處copy爛大街的文章,這篇文章就PM日常工作內(nèi)容都闡述了,良心好文!

    來自廣東 回復(fù)
    1. 謝謝認(rèn)可哈

      來自四川 回復(fù)
  11. 你好,我之前是做iOS開發(fā)的大概做了4年,專業(yè)是計(jì)算機(jī) ,女生如果轉(zhuǎn)向AI這個(gè)方向的話,有什么樣的一些建議嗎?謝謝啦

    來自上海 回復(fù)
    1. 這個(gè)我就想不到建議咯。我的眼里,男女平等 ?? 都一樣的。

      來自四川 回復(fù)
  12. 謝謝,總結(jié)很詳細(xì)。

    來自廣東 回復(fù)
    1. 不用謝,對(duì)大家有用就好

      來自四川 回復(fù)
  13. 贊贊贊!不過沒找到“推薦閱讀書籍”,在腦圖里嗎,找了幾遍沒找到 ??

    來自廣東 回復(fù)
  14. 良心文章啊?。?!

    來自浙江 回復(fù)
  15. 非常清晰,內(nèi)容龐大。一次看不完。留個(gè)爪

    來自廣東 回復(fù)
  16. 看得我好暈 ??

    來自廣東 回復(fù)
  17. 本人互聯(lián)網(wǎng)b端產(chǎn)品經(jīng)理,現(xiàn)在想轉(zhuǎn)型AI產(chǎn)品經(jīng)理,請(qǐng)問樓主能否推薦下適合AI新人學(xué)習(xí)的書籍呢,感謝!

    回復(fù)
    1. 起點(diǎn)學(xué)院有一門《15天入門AI產(chǎn)品經(jīng)理》的課程,已經(jīng)開辦8期,幫助2500+同學(xué)成功入門,有需要的話可以加蘑菇微信了解哈(id:qdxymg)

      來自廣東 回復(fù)
  18. 老狼?廣州的么,貌似和你一起玩過桌游,受教了

    來自廣東 回復(fù)
  19. 您好,對(duì)于AI產(chǎn)品經(jīng)理的職責(zé),有2個(gè)問題請(qǐng)假下,有勞指點(diǎn)迷津啦:
    (1)分析最佳的AI解決方案(比如用什么AI技術(shù)、哪一個(gè)模型)
    這方面,采用什么技術(shù)、什么模型,這方面不應(yīng)該是拉算法團(tuán)隊(duì)一起開需求評(píng)審會(huì),或者技術(shù)方案討論會(huì)么? 這個(gè)問題的主導(dǎo),是不是應(yīng)該推動(dòng)算法團(tuán)隊(duì)去決策?
    (2)同樣的問題,是對(duì)于“數(shù)據(jù)訓(xùn)練機(jī)器”部分,提到的查看擬合度、調(diào)整算法參數(shù)。也應(yīng)該是同樣配合技術(shù)團(tuán)隊(duì),一起操作吧?
    我理解這方面工作,產(chǎn)品經(jīng)理只是可以配合,做簡(jiǎn)單實(shí)驗(yàn)、測(cè)試

    來自浙江 回復(fù)
    1. (1),分享一個(gè)案例。我之前做一個(gè)問答功能,出題人不僅出題目,還會(huì)預(yù)埋答案,AI要以出題人預(yù)埋答案作為參考判斷答題人的答案得分。我們發(fā)現(xiàn)這跟中學(xué)考試一樣,其實(shí)是看答題人回答中體現(xiàn)了多少知識(shí)點(diǎn),體現(xiàn)相關(guān)知識(shí)點(diǎn)越多,說明答得越好。我們首先想到要從文本相似度算法中找一個(gè)最佳算法。通過對(duì)歐式距離算法、編輯距離算法、jacaard相似度算法等的理解(可以自己去了解這些文本相似度算法),選擇了jaccard相似度算法。因?yàn)閖acaard的算法邏輯是兩個(gè)文本之間相同的詞越多,相似度越高。
      (2),工程師是負(fù)責(zé)跟機(jī)器直接溝通的人

      來自重慶 回復(fù)
  20. 不好意思,我寫的文章不商用

    回復(fù)
    1. 我現(xiàn)在很糾結(jié),我從事人力很多年了,對(duì)計(jì)算機(jī)類不懂,現(xiàn)在想轉(zhuǎn)型,想從0開始學(xué)習(xí)Ai產(chǎn)品經(jīng)理這塊,我不知道自己適合不?要不要培訓(xùn)機(jī)構(gòu)……

      回復(fù)
    2. 最好的方法是參與一個(gè)AI產(chǎn)品。或者參與一些廣告類產(chǎn)品,搜索引擎類產(chǎn)品

      回復(fù)
  21. 贊贊贊

    來自北京 回復(fù)
  22. ?? 很良心的一篇文了,把最流行的人工智能算法全梳理了一遍,重點(diǎn)是:免費(fèi),免費(fèi),有沒有

    來自湖北 回復(fù)
    1. 又回來刷了一遍,上次是重點(diǎn)看算法,這次是看產(chǎn)品經(jīng)理這么做

      來自湖北 回復(fù)
    2. ??

      來自廣東 回復(fù)
    3. 做什么

      來自湖北 回復(fù)
  23. 前輩非常厲害,學(xué)習(xí)了! ?

    來自北京 回復(fù)
    1. 過獎(jiǎng)了,歡迎持續(xù)關(guān)注,haha

      來自廣東 回復(fù)
  24. 厲害

    來自美國 回復(fù)
    1. 謝謝哈

      來自廣東 回復(fù)
  25. 脈絡(luò)梳理的非常清晰,贊??

    來自遼寧 回復(fù)
    1. 謝謝鼓勵(lì),希望持續(xù)關(guān)注,文章有寫的不好的地方歡迎點(diǎn)評(píng)

      來自廣東 回復(fù)
  26. 贊贊

    回復(fù)
    1. 謝謝鼓勵(lì),以后盡量多寫

      來自廣東 回復(fù)
  27. 機(jī)器學(xué)習(xí)只是人工智能的一個(gè)分支,當(dāng)然現(xiàn)在主流這個(gè)

    回復(fù)
  28. 目前也正在從事ai產(chǎn)品工作,樓主這篇文章算是比較好的科普文章了,支持

    回復(fù)
    1. 謝謝支持哦

      來自廣東 回復(fù)
  29. 回復(fù)
    1. 謝謝鼓勵(lì)

      來自廣東 回復(fù)
  30. 感謝作者的文章,非常棒。但目前感覺AI產(chǎn)品經(jīng)理門檻很高,學(xué)完之后找不到工作 ??

    來自北京 回復(fù)
    1. 如果沒有過AI經(jīng)驗(yàn),那么有搜索產(chǎn)品經(jīng)驗(yàn)、廣告業(yè)務(wù)經(jīng)驗(yàn)等,找AI工作機(jī)會(huì)也會(huì)大一些。而且呢,產(chǎn)品經(jīng)理就是產(chǎn)品經(jīng)理,AI只是一個(gè)相對(duì)細(xì)分的產(chǎn)品方向罷了。爭(zhēng)取先到小公司做相關(guān)的項(xiàng)目,有經(jīng)驗(yàn)之后便可以找到滿意的工作了。祝好運(yùn)

      來自廣東 回復(fù)
    2. 有沒有相關(guān)教程推薦呢?我看文字感覺超級(jí)枯燥,看不下去

      來自北京 回復(fù)
    3. 起點(diǎn)學(xué)院有一門《15天入門AI產(chǎn)品經(jīng)理》的課程,已經(jīng)開辦8期,幫助2500+同學(xué)成功入門,有需要的話可以加蘑菇微信了解哈(id:qdxymg)

      來自廣東 回復(fù)