輕松看懂推薦算法:精打細算才是出路
信息過度和廣告過多的社會中,推薦算法的使用也就顯得理所當然。
推薦算法背景
在商品短缺,信息缺失和廣告缺乏的時代,人類社會面臨著無可奈何的選擇不足困境;而在商品過剩,信息過度和廣告過多的社會中,人類社會又面臨著史無前例的選擇過多困境甚至于因為選擇過多而產生無從選擇的尷尬情景。
在這兩種截然不同的社會經濟環境中,個體所采取或者說所應對的策略,前一種側重于自覺地主動搜尋個體需求之物,后一種側重于不自覺地被動接受社會提供之物。
體現在現實的經濟社會中,就是我們現在不僅通過搜索引擎主動地查詢搜索購買商品,查詢收集瀏覽新聞信息和廣告資訊;而且我們更是被動地接受了由機器深度學習進行系統自動化推薦算法所計算出來的,為個體量身定做而提供的各種推薦商品,信息和廣告等個性化服務。
當然,也正如同古希臘大哲學家蘇格拉底所說的那樣,人最難認識的是自己,有時用戶很難用恰當的關鍵詞語來描述自己的需求和想法,又或是無法對自己未知而又可能感興趣的信息做出描述而顯得無所適從或者說無可選擇。因此,通過機器算法的推薦系統能得到進一步的發展和應用就成為順理成章的事情了。
雖然這種基于機器各種算法而產生的商品、信息和廣告推薦成為各大互聯網服務平臺的標配,尤其是通過主打算法的個性化推薦類新聞app在近一兩年的崛起和稱霸,更是成為中國互聯網界有目共睹的輝煌成就。
但隱藏在這些熱鬧表象身后所體現出來的實質上更多地是社會科學技術發展到一定程度所必然出現的結果,即AI技術中有關深度學習技術手段在歷史上幾次起起落落后應用于推薦系統中的重新崛起和發展。因此,近幾年推薦系統的風生水起,與其說是互聯網界的成就,不如說是中國科技界,尤其是AI技術的進步。
很明顯,深度學習是AI體系中技術層面上的一種運算方法和手段,而推薦系統則是深度學習在具體細分領域的一種技術層面應用,它的重新崛起是社會發展到一定階段后,人類所形成新的需求矛盾與科技進步發展所形成新的生產力相互結合的必然結果。
它與各種互聯網服務平臺結合而成的實際應用就是我們現在的個性化推薦商品(電商),新聞(資訊分發),廣告以及其他各種個性化服務平臺,如下圖。
推薦算法歷史與種類
實際上,推薦這二個字對我們來說并不陌生,遍布于生活、工作、學習等各個方面,如學習中的三好生推薦,高考中的保送生推薦;工作中的優秀員工推薦,選舉時的候選人推薦;生活中的超市購物店長推薦,暢品推薦等等。
而從其縱向的發展歷史來看,我們也經歷了從毛遂自薦,口碑相傳的個體推薦形式,逐步過渡到1/2或者2/3簡單多數規則的群體推薦形式,以及進一步轉化到涉及各種權重、混合、360度全方位等復雜規則的群體推薦形式。
然而,不管是個體自薦和推薦,還是群體推薦;抑或不論是簡單多數規則,還是復雜規則;本質上都屬于一種人為推薦形式。而人為推薦則必然不同程度地存在著諸多如暗箱操作、感情用事、趨利避害、標準不一的主觀性意見缺陷,導致難以得到客觀化的滿意結果。
為使推薦的結果更加合乎實際和更加客觀化,通過計算機采取一定技術方法的算法推薦系統就應運產生了。與人為推薦系統的發展歷程一樣,早期計算機推薦系統中的算法和技術也是十分簡單和粗糙的,如打分預測,即通過用戶(User)對物品(Item)的打分(Rating)進行評分預測推薦;或相似評估,即通過對用戶和物品一些較為粗糙簡單的明顯屬性進行分析評判推薦。
只是在進入互聯網時代后,隨著云計算和大數據分析等技術的發展,在運算和存儲能力躍入新的層級之后,推薦算法不僅在數量的廣度上,而且在技術的深度上都達到了前所未有的一個水平。
目前各種具體推薦算法很多,而且分類標準也不盡相同,但萬變不離其宗,由于推薦系統本質是向用戶推薦合適物品的個性化服務,主要涉及到用戶和物品二個對象。因此,從大的方向來看,可以劃分為基于用戶的“人以群分”推薦算法和基于物品的“物以類聚 ”推薦算法,簡述如下:
1、以人為中心的“人以群分”推薦算法
這種推薦系統的內在原理有一個假設前提,即相同群體中的成員擁有共同的興趣愛好,因此同類人喜歡什么就推薦什么。很明顯在這種推薦系統中,關鍵點是如何全面準確地劃定人“群”的屬性,即“群”的相似度和近似度對個體的影響力權重程度。一般地,最常見的是基于人口統計學中個體自然的基本屬性而推薦。
因此,根據個體的基本屬性在理論上就會出現很多推薦子系統,如基于性別的,基于年齡的,基于學歷的,基于地域的等等推薦系統,這里的關于人的推薦系統是平行關系的,與下面的物品推薦系統層級關系有所不同。當然在實際經濟中,并不是所有的推薦系統都是有用或者說有效的,因此就必須根據個體和物品進行有目的的篩選淘汰了。
栗子:基于年齡的推薦系統
這里的“群”就是年齡,而且假設年齡對物品和用戶的影響力權重占第一位。推薦原理如下:
- 第一步:機器通過大數據以“年齡”為關鍵屬性搜尋找到各個用戶之間的相似度和鄰近度。
- 第二步:對不同用戶A,B,C的相似度進行排序。
- 第三步:選出與當前用戶A最相近的用戶C。
- 第四步:將用戶A喜歡的物品a推薦給沒有接觸過的用戶C。
這是較為通俗易懂的基于用戶簡單推薦方式,當然在實際經濟生活中,“群”屬性確定,推薦方式和具體運算過程則要復雜得多,但基本原理相似。
2、以物為中心的“物以類聚”推薦算法
與“人以群分”的推薦方式相類似,它是以物品的相似度代替了用戶的相似度。這種推薦系統也有一個假設前提,即同一用戶對相同類型的物品具有共同的興趣愛好或者說吸引力,因此用戶喜歡什么就推薦相同類型的物品。一樣的道理,在這種推薦系統中,關鍵點是如何全面準確地劃定物品的“類”的屬性,即物品的“類”屬性相似度和近似度對個體的影響力權重程度。
與“人以群分”推薦算法中“群”的各個屬性劃分是基于橫向平行關系不同,在“物以類聚”推薦算法中物品的“類”是基于縱向層級關系而劃定。而且由于大千世界各種物品成千上萬,因此首先必須確定一個物品分門別類的劃分標準,或者說確定一個比較合適的劃分標準就顯得十分重要。
物品具有自然屬性和商品屬性,因此可以按生物標準進行自然屬性分類,也可以按經濟屬性進行商品屬性分類;但由于我們都處于經濟社會中,因此一般地,我們將物品的類別劃分確定為以商品經濟屬性為主,兼顧生物自然屬性進行劃分。第一層先劃分為有形產品和無形服務;第二層再根據慣例按國民經濟行業有關第一產業、第二產業、第三產業進行行業分類。然后每一層按照從大到小,結合物品的品類、品種等自然生物屬性和功能、用途、產地等商品屬性逐層進行細分,直至分解到最后的最底層每一個單品sku。
相應地,根據物品類別在理論上也存在著很多推薦系統,對于有形產品來說,有基于價格的,基于用途的,基于產地的;對于無形服務來說,有基于年代的,基于等級的,基于提供者的等等細分推薦系統。當然也要根據需要進行篩選。
栗子:基于產地的物品推薦系統
這里的“類”就是產地,而且假設產地對用戶的影響力權重占第一位。推薦原理如下:
- 第一步:機器通過大數據以“產地”為關鍵屬性搜尋找到各個物品之間的相似度和鄰近度。
- 第二步:對不同物品a,b,c的相似度進行排序。
- 第三步:選出與當前物品a最相近的物品c。
- 第四步:將物品c推薦給沒有接觸過的用戶A。
以上介紹的二種方法是推薦領域最基本的,也是最簡單的的方法。但在實際的經濟生活中和現實的真實案例推薦中,往往不是那么簡單,需要面臨著許多復雜多變的情景和任務,因此,在這二種基本推薦基礎上的各種混合推薦系統就應運而生了。主要有
3、基于協同過濾推薦系統:這又分為基于用戶協同過濾和基于物品協同過濾二種推薦方法
基于用戶的協同過濾推薦方法原理與基于以人為中心的“人以群分”推薦算法相同,都是通過計算用戶的相似度,利用相似,鄰近和鄰居進行計算推薦;它們的區別是如何計算用戶的相似度,基 于以人為中心的“人以群分”推薦算法只考慮個體用戶本身的基本特征,而基于用戶的協同過濾機制則是在用戶的歷史偏好數據上計算用戶的相似,即考慮用戶的歷史行為特征。
同樣,基于物品的協同過濾方法與基于以物為中心的“物以類聚”推薦算法工作原理相似,都是基于物品相似度預測推薦;它們的區別也是物品相似度計算的方法不一樣,前者是從用戶歷史的偏好推斷,即物品有關的購買,收藏,評論,點贊等信息,而后者是基于物品本身的基本屬性信息。
4、基于關聯規則的推薦:就是找不同商品之間的相關性,假設用戶喜歡A,A和B有緊密聯系,就推薦B。主要指一些互補關系的產品,如香煙與打火機,復印機和色粉盒,也指一些在用途、渠道、購買者等方面相同的一些產品,如奶粉與尿不濕購買者可能為同一人,買了面包的人可能會買牛奶,零食與飲料可互補,海邊的五金小店售賣啤酒等等。
5、基于背景的推薦:即找尋發現物品的行業特征以及物品在購買場景、展示場景和使用場景時的一些規律進行合適的推薦,如展示場景推薦系統就是表示如何將推薦產品合理地展示在電商頁面的各個部分,以及明確各個部分的大小,順序,色彩,主次等屬性,從而達到重點區域突出,個性化推薦加強,進而提高銷量的結果。
還有一些推薦算法,如標簽的流行度推薦算法,基于效用的推薦,基于知識的推薦,組合推薦,加權推薦系統,模型推薦等;現歸納如圖。
?
推薦算法應用:精打細算才是出路
理論的最終目的是為了應用,是為了更好地指導我們的實踐。因此,各種推薦算法在實際經濟生活中的運用才是我們所需要考慮的核心問題。算法無好壞,適合是王道。
由于每個推薦算法都不是完美的,都有著不同程度的各自優缺點;因此理想的狀態是使用所有推薦算法,取長補短,通過給不同算法的結果加權,從而達到完美的結果。但在實際應用中,基于企業的技術能力,成本壓力和時間約束等因素,較為實際的步驟是:
- 根據所處行業,企業主要產品和主流用戶的屬性,確定以一個推薦算法為主計算結果,其他1-2個算法為輔論證和調整結果的混合推薦算法系統。
- 具體計算時,兼顧技術上的可能性,經濟上的可行性和時間上的可控性三原則,實現推薦算法在技術、經濟和效率的有機結合。
- 時空因素的影響:包括時間上有明顯淡旺季區別的企業,有某些特定大事影響原有業務和產品運作方式的,如圖原先體育欄目中,按項目、國別、球隊、球員等維度逐層進行計算,然而在奧運會或者世界杯時期,可能在體育欄目中,就要變成奧運會、國家、運動員這幾個維度進行計算了;空間上如交通企業,地域性明顯的o2o、風景區和旅行社等。
4.不斷迭代調整,提高計算準確率,實現更切合實際和滿意的結果。
那么,在電商行業、資訊信息廣告行業和各種交互服務行業應用時,如何實現推薦算法的精打細算呢?具體的做法是:
電商行業:按大眾化和小眾化商品劃分
對于那些大眾化,老小皆宜的消費品,尤其是快消品,宜采用基于用戶為中心的“人以群分”的User? RS 推薦算法,強調用戶存在的買點和痛點,兼顧企業的優點和競爭點,也適合于那些選購性的耐用物品。
對于小眾化,專業性強,特定品,以及工業品等物品,則應采用基于物品為中心的“物以類聚”的Item RS 推薦算法,強調物品自身的新奇特優等賣點,兼顧企業的優點和競爭點;從而進行精準化推薦,也適合于一些長尾物品以及沒有用戶畫像的新產品冷啟動情景。
資訊信息廣告行業:按社會化和專業化劃分
對于以娛樂消遣休閑為目的社會化新聞和一些常識談資分享類信息,側重于User? RS推薦算法。
以科技類,冷知識等專業知識,提高生活、學習和工作水平和能力為目的,側重于Item RS推薦算法。
至于如何對互聯網中其他各種交互服務(包括無形服務)的平臺,進行推薦算法的精打細算,可能會在《推薦算法:why比how和what更重要》中進行思考。
本文由 @行者 原創發布于人人都是產品經理。未經許可,禁止轉載
題圖來自 Unsplash ,基于 CC0 協議
- 目前還沒評論,等你發揮!