翻譯翻譯,什么叫機器學習?

3 評論 4703 瀏覽 11 收藏 9 分鐘

編輯導讀:認識世界,就是一個從已知到未知的函數。機器學習,就是預測這個函數,并且使預測結果盡量準確。本文作者圍繞機器學習展開討論,與你分享。

問:談談你對機器學習的理解。

答:機器學習就是用已知去預測未知。

認識世界,就是一個從已知到未知的函數。收集一大堆數據,然后用它們去預測一個值,就是回歸問題。例如數碼回收,根據你的機型、機況和行情,給出一個價格走勢;從一大堆數據中,找到屬于某一類的那些,就是分類問題。例如我們經常使用的驗證碼,“選出所有帶橋的圖片”。

機器學習,就是預測這個函數,并且使預測結果盡量準確。當然,這個過程是由算法工程師實現的,策略產品經理需要思考的是怎樣用算法的邏輯,去解決業務問題。本文放棄了復雜的定義和公式,嘗試用口語化的語言介紹常用算法的邏輯,降低新手產品經理(非技術)的學習成本,并且覆蓋盡可能多的工作場景。

一、像樹一樣決策

決策樹(Decision Tree)是一種以樹形數據結構來展示決策規則和分類結果的模型,比較接近人類的決策過程。決策樹發揮作用,首先要用到看似雜亂無序的已知實例,有2個值可以來形容這些實例。

  1. 信息熵:對隨機時間不確定的度量,即到底有多雜亂無章。
  2. 信息增益:事件A的的發生為事件B增加了一些確定性,增量的多少即信息增益。

接下來,你要不斷尋找最能將這堆雜亂無章的數據區分開來的特征——即使之區分于其他數據的特質——使用這一特征對數據進行劃分。每次選擇區分度最高的一個,不斷迭代,直到所有特征都被用掉。用最經典的買瓜問題來示例:

這時你就可以通過決策樹來判斷,下一個西瓜到底該不該買。在這個過程中,有時候需要產品幫助判斷什么特征才是最有價值的。你也可以不斷發現新的有價值特質,或刪除一些多余的特征,將這棵”樹“修剪地更加精致。

二、以類聚物,以群分人

所謂”近朱者赤近墨者黑“,雖然我們不了解一個人,但我們了解了他身邊的人后,就根據已知信息推測他的性格特征。這也是K近鄰模型的原理。在一個空間中,距離樣本A最近的K個樣本B屬于一個類別,那么A也屬于這個類別,并且具備這個類別的特征。這里”空間“和”距離“的定義較為復雜,不做展開。

如何選擇合適的K值?需要持續訓練。如果K們不能很好地歸成一類咋辦?那我A應該歸屬于誰呢?有兩種判定方式,一種是少數服從多數,哪類最多我屬于誰;一種是加權投票,可以根據遠近程度加權,越近權重越大。

對于產品而言,在進行用戶分層類的項目時,可能會依賴這類算法能力。舉個例子,當前我能提供圖文、短視頻和中長視頻三種形式的服務,每種服務下都積累了大量的用戶數據。這時由于運營的出色表現,產品涌入了大量新用戶,我需要盡快知道他們更適合哪種形式的服務,以提高留存、活躍和轉化。

三、完美一刀切

承接上文,面對大量新用戶,我想要知道他們哪些對我價值最高,哪些價值稍低,從而采取不同的運營策略。支持向量機模型會是一個好的選擇。

假如我有N個特征來形容這批用戶,那么構建一個N維的空間,每個用戶都能在其中找到自己的坐標。這時我找到一個N-1維的平面,它正好將所有用戶分割成2個不同的類別,并且離正負樣本的距離最遠。

這就是支持向量機模型的基本邏輯,是解決線性不可分問題、非線性問題的利器。

以上三種模型都是根據已知特征,給出一個確定的分類結果(未必準確),我們稱之為判別模型。與之相對的是生成模型,它會給出一個最優的猜測結果,同時給出猜測的概率估計值。在一定條件下,它能更好地反映數據分布的全貌。

四、樸素貝葉斯模型

啥叫貝葉斯?貝葉斯就是在已知某條件的前提下,推算某事件發生的概率。它強調我們在預測一個事物前,要根據已有信息推斷一個先驗概率。用舉個例子:如何腫瘤化驗結果推斷患者是否真正得癌?在計算這個概率之前,我們首先要知道先驗概率,即癌癥本身的發病率為多少,以及化驗檢測的準確率是多少。

如上圖所示,當你的化驗結果是有病時,你實際上只有9%的概率真正患??;而如果你真正患病,也有十萬分之一的概率沒有被檢測出來。

這其實告訴我們,在根據數據進行決策時,要考慮前提條件。例如我們在產品內部新上線了一個“長視頻”板塊,數據分析發現這一板塊下的用戶以35-45歲的用戶為主,所以我們判斷要根據這一年齡階段的用戶去優化UI設計和內容投放。

但考慮到先驗概率的問題,我們首先要知道該板塊用戶的轉化概率,即從35歲-45歲的網民轉化到我“長視頻”板塊活躍用戶的概率。如果這一概率很高,那么我們可能只是在這一年齡段用戶聚集的渠道做了比較多的投放,導致現階段35-45歲用戶較多。我們針對其他年齡用戶聚集的渠道,也來一波拉新策略,可能同樣獲得成功。那么現階段去調整功能設計和內容策略,就是不合適的。

五、總結

對很多非技術產品經理來說,充斥著數學公式和專業術語的技術語言是很難理解,或理解成本較高的。但實際上,作為一個新手產品經理,還沒有深入到具體的業務之前,只需要了解每種技術的實現邏輯即可。從策略的視角去審視技術,而不是讓技術限制了你的想象力。樹立強烈的目標導向,與技術團隊建立良好的溝通關系,可能是更高效的手段。

相關閱讀:

?新手產品經理高效溝通體系的搭建

 

本文由 @學產品的小學生 原創發布于人人都是產品經理。未經許可,禁止轉載

題圖來自Unsplash,基于CC0協議

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 如上圖所示,當你的化驗結果是有病時,你實際上只有9%的概率真正患病; 這話有點怪

    來自廣東 回復
  2. 機器學習的概念第一次進入公眾視野應該是多年以前蘋果發布iphone x的時候引入的概念,忘了是ihone x還是7了

    來自北京 回復
  3. 大家可以看下我的思路有無錯誤~

    來自北京 回復