AI產品經理的入門必修——概念篇
編輯導語:隨著各行各業的豐富,產品經理的崗位職責也越來越細致;如今科技發展迅速,AI人工智能已經開始深入生活中,AI產品經理也需要掌握一定的技能;本文作者分享了關于AI產品經理的學習概念分享,我們一起來看一下。
經過近幾年來的發展,產品經理的崗位職責劃分的越來越細,對能力的要求也越來越高。
很多剛接手做AI產品的童鞋會困擾,到底需要對人工智能技術掌握到什么程度才能夠勝任好這份工作;筆者通過自身的學習經驗,期望能以此篇文章為剛入行或者想入行的童鞋打開一些學習思路。
一、工欲善其事,必先利其器
AI產品經理除了要掌握通用的產品技能,需要具有更強的專業性、廣博性和條理性;AI技術作為一種新的生產力,處理了過往技術無法處理的復雜的非結構化數據。
很多人在使用機器學習時,喜歡簡單粗暴的將數據丟給算法模型,期望從數據中自己得到結論;AI絕不是將手中的數據喂給它,就能夠解決我們的業務問題。
很多公司老板容易AI超神論,認為我們掌握了技術,擁有了人才,就能夠建立自己的護城河;作為產品經理需要清楚的理解機器學習的使用場景和邊界,清晰定位問題才能尋找新的市場機會。
1. 產品規劃:五看三定原則
五看三定模型其實是華為的戰略管理框架,現在把它結合到產品的工作中。
1)五看包括:
看行業/趨勢:
- 結合公開的行業數據、現有的業務數據、產品數據分析未來趨勢走向,為業務發展尋找新的增長點。
- 不僅要看宏觀的經濟因素還要從群體思想、政治關系等角度去切入,可以結合PEST方法進行分析,即政治、經濟、社會、技術分別分析企業的外部環境。
看市場/客戶:確定需求強度,需求可替代性,以及客戶的持續付費能力。
看競爭:當前市場的競爭態勢,有多少玩家在里面,分別占據了怎樣的市場份額。
看自己:評估內部資源,現有的產品矩陣。
看機會:是否存在彎道超車的機會,做到人無我有,人有我優。
2)三定包括:
定控制點:簡單可理解為一種不易被構建及超越的中長期競爭力,控制有不同的維度,如成本優勢、功能性能的領先、技術的壁壘、品牌與客戶關系、絕對的市場份額等。
定目標:制定清晰的戰略目標,并拆解為最小任務,分步執行、監控、評估。
定策略:策略即戰術,策略的制定決定了后續的資源分配、系統如何組成。
2. 選擇產品類型
在開展新的業務線時,首先問自己幾個問題:我們的護城河在哪?最終產品形態是什么樣子?我們為市場提供了怎樣的解決方案?服務方式?服務能力?
面對不同的業務線首先要做到戰略洞察所處環境與價值分析,制定清晰的戰略目標和策略,通過五看三定原則合理的找到產品定位。
先發型產品:
擁有最快路徑、利用產業升級進行驅動、建立核心門檻和護城河、資源消耗輕、塑造行業標準。
趕超型產品:
擁有最優路徑、差異化的競爭驅動、對標核心競品,尋找機會、研發資源投入較多、達到行業標準以上、做好客戶服務。
二、數據需要懂多少?
1. 建立數據認知
數據與信息的關系:
數據反映在事物屬性的記錄上,而信息是具體事物的表現形式,即數據經過加工和處理后,可揭示和轉化為信息。
信息被識別后表示的符號為數據。
- 數據可以是連續的值比如聲音、圖像,也可以是離散的值,比如文字、符號;
- 計算機系統中,數據是以二進制0、1形式表示;
結構化數據和非結構化數據:
結構化的數據簡單可以理解為數據庫中的數據,可以結合具體的使用場景易于理解的數據。
非結構化的數據是指沒有進行預定義,并且不方便用二維邏輯來表現和解釋的數據,比如文本、圖片、音頻、視頻。
何為臟數據:數據不再我們預先定義的范圍內或對實際業務無意義。
2. 了解數據的業務內涵
理解數據的業務內涵是非常關鍵的一步,這要求產品經理對業務的各個流程和關鍵節點要非常的熟悉,理解數據代表的含義;遇到模糊、定義不清晰的數據要充分與業務部門溝通,準確了解數據內涵。
業務數據包含但不局限于:
- 用戶數據:用戶ID、性別、年齡、地區、手機號…
- 行為數據:點擊、分享、收藏、停留時間…
- 產品數據:商品數據、訂單數據、文章數據、詳情頁數據…
業務指標包含但不局限于:
- 用戶指標:新增用戶、活躍用戶數、留存用戶數..
- 行為指標:訪問次數、轉化率、轉發率、流失率..
- 產品指標:總量、收入、銷量、好評率、差評率、成交量…
業務數據不獨立存在,基于不同的業務背景可傳達出不同的含義,數據的計算重組可發揮出極大的業務價值,需要基于自身的工作場景挖掘數據內涵。
3. 數據處理流程和方法
數據處理流程包含了數據采集->數據處理->數據分析->數據應用->持續跟蹤和驗證。
數據采集:
數據處理:
數據分析:
數據應用:
除此之外根據具體要解決的業務問題,還需要完成業務建模、數學建模、經驗數據分析,此部分通常由數據分析師進行,產品經理涉及較少。
三、機器學習是什么?
機器學習為計算機提供了不同的數據處理方法,這些處理數據的方法可以直接從數據中學習,不需要額外的編程即可做出預測。
我們可以將機器學習簡單理解為函數,像理解y=x2 一樣,給到一個輸入項,通過公式的計算即可得出一個對應的計算結果;這個公式不需要編碼預設邏輯,由數據的規律計算得出。
機器學習過程分為訓練階段和預測階段。
訓練階段需要提前準備一定的歷史數據(即公式的x和y),通過機器學習算法,訓練出一套可計算的公式(即模型)。
預測階段就是拿真實的數據(x),在訓練好的模型上進行輸入,觀察輸出的結果(y),是否符合預期,若符合預期即完成了一個機器學習模型的訓練。
1. 從任務來看
機器學習解決的問題可以歸為分類問題、預測問題。
分類問題包含二分類、多分類,顧名思義,二分類問題是非此即彼的問題,如垃圾郵件,只存在是垃圾郵件、不是垃圾郵件。
圖片識別問題,是植物不是植物。
多分類問題如文檔自動歸類,包含了一對多,多對多的關系。
預測問題通常第一反應就會想到回歸,因為常被用來預測公司收入、業務增長量、商品銷量。
需要預估的通常都是連續值,試圖將輸入變量和輸出用一個連續函數對應起來。
而分類問題,通常預測的都是離散值,試圖將輸入變量與離散的類別對應起來。
還有一類特殊的解決問題的模型為結構化學習模型,通常輸出的數據不再是一個固定長度的值,比如圖片語義分析,對應輸出的是圖片對應的文字描述。
2. 從機器學習方法來看
機器學習分為有監督學習、半監督學習、無監督學習、遷移學習、強化學習。
- 有監督:訓練樣本帶有標簽;
- 半監督:訓練樣本部分有標簽,部分無標簽;
- 無監督:訓練樣本全部無標簽;
- 遷移學習:把已經訓練好的模型參數遷移到新的模型上來幫助新模型的訓練;
- 強化學習:也叫學習最優策略,是可以讓本體在特定環境下,根據不同狀態做出行動,以此來獲得最大回報。
3. 從模型類別來看
機器學習模型主要分為線性模型、非線性模型。
線性模型是指因變量和自變量之間按比例表現出線性對應關系,包含了線性回歸、多項式回歸。
公式表現為——h(x)=w1x1+w2x2+?+wnxn+b
非線性模型通常是指因變量與自變量間不能在坐標空間中表現出線性對應關系。
常見的SVM、KNN、決策樹、深度學習都屬于非線性模型。
提到線性、非線性模型,我們必須要了解一下什么是損失函數,通常在模型訓練的過程中,我們需要觀察h(x)與y之間的差距,也就是均方誤差,在線性模型中表現為L(h)=m∑i=1(y(i)?h(x(i)))2,在模型訓練過程中,損失函數是作為度量函數好壞的標準。
需要注意的是在面對不同的問題時,所使用的損失函數形式是存在差異的,常見的損失函數有均方差損失函數、交叉熵損失函數、合頁損失函數,通常會配合不同的算法使用做出突出表現。
4. 常見的誤差
泛化誤差:可以分解為偏差、方差和噪聲之和。
偏差:反映了模型在樣本上的期望輸出與真實標記之間的差距,指模型本身的精準度,以及擬合能力。
方差:反映了模型在不同訓練數據集下學得的函數的輸出與期望輸出之間的誤差,通常是為了測試模型的穩定性,觀察預估結果的波動情況。
在模型訓練過程中,需要根據實際情況來權衡模型的復雜度,使偏差和方差得到均衡,以整體誤差最小的原則去評估。
5. 常見的問題
模型訓練中常常遇到欠擬合、過擬合的情況,那么怎么識別及解決呢?
欠擬合:通常是指模型刻畫不夠,解決方案通常有三種。
- 尋找更好的特征提升數據刻畫能力。
- 增大數據集數量。
- 模型復雜度低,重新選擇更加復雜的模型。
過擬合:與欠擬合相反,模型刻畫太細,泛化能力太差。
通常解決方案為:
- 減少特征的維度,將高維空間密度增大,也就是通常說的降維。
- 加入正則化項,使模型褶皺減少,更加平滑。
四、算法需要懂多少?
確認算法的流程通常是由產品經理和算法工程師共同完成,包含:需求確定 -> 算法設計 -> 算法討論 -> 算法確認 -> 算法驗收 -> 持續改進。
算法模型的選擇和訓練是個繁瑣且復雜的過程,依賴于具體所解決問題的復雜程度。產品經理除了要明確定位要解決的核心問題,還需要了解模型訓練的整個流程。
很多人會說產品經理不需要了解這么多,不是還有算法工程師嗎?
理想情況下,如果你的算法工程師能夠充分了解要解決的業務場景,并將數據可解決問題的上限、下限劃定清楚,產品經理只需驗收數據效果即可。
但通常情況下,算法工程師距離業務線較遠,而機器學習強依賴于數據表現,產品經理對業務數據的識別能力,通常能夠極大的加快整體進度,在訓練過程中能夠及時識別問題并調整策略及解決方案。
產品經理對算法的掌握到底需要達到什么程度呢?
個人認為只需要掌握常見算法模型的原理和使用場景,以及不同算法在解決不同問題的優勢和劣勢,合理組合和使用即可滿足日常的工作需求。不需要糾結于具體的算法推導過程。
五、機器學習常見的算法模型
針對不同的使用場景,scikit-learn(python機器學習庫)上有封裝好的機器學習算法模型可以支持我們直接調用。
下圖為人工整理的關于不同場景及數據集下建議使用的算法模型,僅供學習和參考。
下期將介紹具體的機器學習訓練過程,包含如何梳理業務邏輯、需求轉化、準備數據集、建立算法模型、模型評估及訓練過程中常出現的問題與解決方案。
#專欄作家#
大鵬,公眾號:一個數據人的自留地。人人都是產品經理專欄作家,《數據產品經理修煉手冊》作者。
本文原創發布于人人都是產品經理。未經許可,禁止轉載
題圖來自Unsplash,基于CC0協議。
作者:一個圓圈兒
本文由 @一個數據人的自留地 授權發布于人人都是產品經理,未經作者許可,禁止轉載
題圖來自 Pixabay,基于 CC0 協議
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。
不錯
想入行的菜雞,沒看懂。。。
最后一個圖。。。
平安健康
好文比較全面,能提供一些案例就更好了
好文,最后一張圖看不太清就是了
希望繼續寫下去,對剛入行人員很有幫助
寫的很好!很適合入門,不過感覺對非本領域的還是不太友好地!