別信啤酒與尿布!推薦算法的真相是……
“揭秘推薦算法真相,啤酒尿布傳說背后。” 在推薦算法領域,啤酒與尿布的故事廣為流傳,但其真相究竟如何?現實中的推薦策略又是怎樣運作的呢?
一提人工智能大數據,必有人提啤酒與尿布,有意思的是,都2025年了,還有人信這個老掉牙的都市傳說。今天我們系統看一下。?
1?站在背后的關聯規則
支持啤酒與尿布故事的,是關聯規則算法。注意:關聯規則算法本身沒啥問題,這是一種發現關聯關系(注意:不是因果關系哦)的手段,并且它的算法原理非常簡單,需要的數據也非常少,因此適用范圍非常廣。假設有6種產品,ABCDEF,一個客人買了AB去結賬,收銀員打出一張小票,上邊有AB產品的名稱、價格,我們可以用0、1代表是否有該商品,簡單把小票表示成:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??? ? ? ?類似地,如果有5張訂單,可以表示成:
注意,即使沒有計算,用肉眼也能看到,似乎ABC三個產品在訂單里同時出現的幾率很高,這就是關聯規則的基本思路:找到同時出現頻率高的組合。只不過,我們需要用一些指標來衡量:到底什么算高。?因為有六個商品,所以同時出現的組合有很多種:A+B,A+B+C等,我們從最簡單的兩兩組合開始計算,再算三三、四四……計算組合的時候,我們希望組合出現的頻率越高越好,因此有了支持度概念:
兩個商品的購買可能有先后順序,比如先A后B,這時候可以算購買A的情況下,用戶購買B的概率,從而決定在用戶購買A以后推B產品,或者是C、D產品。因此引入置信度概念:
注意,雖然算出來購買A以后有75%概率購買B,但是不一定非等到用戶買A再推薦B。如這個小例子里,直接推B也有80%購買率,顯然非等到買了A再推B會很不劃算,購買率還跌了,因此引入提升度概念:
支持度、置信度、提升度的計算都很簡單,理論上,只需要設定支持度與置信度的要求,之后按一定順序遍歷所有組合(比如Apriori算法),即能找出所有符合條件的組合。這種方法最大的優勢就是簡單,計算方法、計算邏輯都簡單,且需要的數據很少,只要有訂單數據即可,數據采集永遠是算法的頭號大敵,一個需要數據少的方法,自然會被極其廣泛的運用。特別是應用于購物籃分析。然而,運用歸運用,你真在哪個超市見過啤酒與尿布堆在一起的嗎。很快講故事的人便發現了這個bug,于是改口說:國外的超市……欺負大家出國少呀。那事實的真相到底是啥呢?
2.?為啥現實中不存在
很遺憾,啤酒與尿布在現實中不存在。首先因為啤酒與尿布是teradata公司的銷售編出來的故事。它完美符合了賣科技產品需要“意料之外,情理之中”的講故事原則,因此才流傳廣泛。在實際運用的時候,無論是技術上還是業務上,類似“啤酒與尿布”的完美案例都不存在。從技術上看,關聯規則作為一種無監督找規律方法,更適合做探索性分析,不太適合直接指向一個可落地的SKU組合。注意,上邊的例子是高度濃縮的,所以看起來簡單可行。比如啤酒,實際上還包含了品牌、包裝、價格、是否促銷、是否臨近保質期等眾多因素。實際上SKU極其龐大,且單個SKU的數據非常零散。如果只籠統地用“啤酒”這個大品類做關聯,得出的數據幾乎沒啥指導意義。如果細到某一個具體價位具體保質期的SKU, 比如“Corona/科羅娜啤酒330ml*24瓶178元非折扣非臨期”與“寶適綠幫紙尿褲S164新生嬰兒超薄透氣干爽款155元”單個具體SKU之間的支持度和置信度都非常低,很難達到落地的程度。這是導致啤酒與尿布不會出現在超市里根本原因。隨便一個3米5門頭的小超市尿布至少幾十款,啤酒至少幾十款,到底哪個該擺在一起!還要考慮啤酒的冷藏問題,總不能在冰柜里放尿布吧。至于幾百上千平米大超市,啤酒SKU數幾千款,尿布幾千款,貨架長達數十米,只能分開放在酒水飲料區和母嬰用品區。這倆擺在一起,肯定被商場主管活活毆打致死。從業務上講,關聯規則同所有數學、統計學模型一樣,只能說明兩個數字之間有關聯關系,無法論證任何實際意義上邏輯關系?!皨寢寕冑I尿布的時候會順便給爸爸買啤酒”的解釋,完全就是為了圓故事而圓故事。如果真站在買尿布的媽媽的角度,她有100個理由去買更更值得買的東西,比如干紙巾和濕紙巾。給BB換過尿布的人都知道,那紙巾用起來簡直像潑水一樣快。有更直接、更明確的驅動力存在,為啥要舍近求遠。
3.?現實中是怎么玩的
本質上,消費者的決策是多因素的,生理性需求,認知層次,產品價格,材質,廣告、宣傳、都會影響消費者最終決策。因此想帶動關聯銷售,方法多的很。最直接的,基于業務規律的推薦,也就是俗稱的硬規則。比如有的書就上中下冊,拆開了就是沒頭沒尾;有的藥就是要一起吃,亂吃會死人。這些商品有固定的規律。這時候就不需要看數據,而是根據業務規律直接做推薦。有些不是硬規則,但是是人們約定俗成的習慣。比如出去燒烤,就是需要碳、爐子、簽子、醬油、雞翅、可樂;啤酒就是和花生米、小龍蝦、黃瓜拉皮一起吃;比如方便面就是配火腿腸。這種是軟規則。這些基于用戶習慣的軟規則,也能成為推薦的工具。比如做生鮮電商,可以一件件散著賣,也能打包一個“養秋膘火鍋套裝”把羊肉卷、湯底料、丸子、香菇等涮鍋食材打包賣。有些曾經不是規則,但是經過商家的宣傳廣告,植入進用戶腦海的規則。比如女生各種化妝品,男生各種游戲皮膚、套裝;比如最經典的:怕上火喝XXX;比如學數據分析要ESP套餐。這些是基于營銷宣傳的偽規則。雖然沒有啥科學道理,但是用戶能接受,就能成為推薦準則。當然,還有最簡單粗暴的,基于打折的惠規則。最簡單的,用戶加入購物車以后,發現自己已經買了400,還有一張滿500減100的券能用。這時候用戶急著找的就是“哪里有不雞肋的100元東西可以買”。很有可能她會選紙巾、沐浴露、米面油這種能存放的硬通貨。這些都是業務方能發揮主觀能動性創造出的規則。所以請同學們牢記,并轉發給業務方看:不存在一個不用你努力,就靜靜躺在數據庫里等著被你的數據分析師發現的神秘力量。在2025年,沒有誰家的產品是100%獨特的,想業績做的比別人好,關鍵是自己得努力做。當然,業務方想發揮主觀能動性,也是需要數據支持的(如下圖):
本文由人人都是產品經理作者【接地氣的陳老師】,微信公眾號:【接地氣的陳老師】,原創/授權 發布于人人都是產品經理,未經許可,禁止轉載。
題圖來自Unsplash,基于 CC0 協議。
- 目前還沒評論,等你發揮!