個性化推薦十大挑戰(zhàn)(上)
有的人覺得個性化推薦就是細分市場和精準營銷,實際上細分市場和精準營銷往往是把潛在的用戶分成很多群體,這固然相比基于全體的統(tǒng)計有了長足的進步,但是距離“給每一個用戶量身定做的信息服務”還有很大的差距,所以,只能說個性化推薦是細分市場的極致!實際上,信息服務經(jīng)歷了兩次理念上的變革,第一次是從總體到群體,第二次是從群體到個體。第二次變革正在進行中,所要用到的核心技術就是這篇文章要討論的個性化推薦技術。
有讀者覺得個性化推薦就等同于協(xié)同過濾,這可能是因為協(xié)同過濾應用比較廣泛并且比較容易為大眾理解。實際上協(xié)同過濾只是個性化推薦技術中的一個成員。它與很多更先進技術相比,就好像流行歌曲和高雅音樂,前者廣受歡迎,而且一般人也可以拿個麥克風吼兩聲,但是說到藝術高度,流行歌曲還是要差一些。當然,流行歌曲經(jīng)濟價值可能更大,這也是事實??偟膩碚f,協(xié)同過濾只是個性化推薦技術中的一款輕武器,遠遠不等于個性化推薦技術本身。
圖1:信息服務的兩次變革:從總體到群體,從群體到個體。
有些讀者可能不是很了解個性化推薦,我先推薦一些閱讀的材料。中文的綜述可以看我們2009年在《自然科學進展》上的綜述。這篇文章質量不能說很好,但是可以比較快得到很多信息,了解個性化推薦研究的概貌。有了這個基礎,如果想要了解突出應用的算法和技術,我推薦項亮和陳義合著的《推薦系統(tǒng)實踐》。百分點科技出版過一本名為《個性化:商業(yè)的未來》的小冊子,應用場景和商業(yè)模式介紹得比較細致,技術上涉及很少,附錄里面介紹了一些主流算法和可能的缺陷,或許能夠稍有啟發(fā)。國外的專著建議關注最近出版的兩本,其中實際上是很多文章的匯總,因為寫這些文章的都是達人,所以質量上佳。Adomavicius和Tuzhilin的大型綜述特別有影響力,不僅系統(tǒng)回顧了推薦系統(tǒng)研究的全貌,還提出了一些有趣的開放性問題——盡管我個人不是很喜歡他們對于推薦系統(tǒng)的分類方法。我們今年發(fā)表了一篇大綜述,應該是目前最全面的綜述,所強調的不僅僅是算法,還有很多現(xiàn)象和思路——大家有興趣不妨看看。
有些讀者認為個性化推薦技術的研究已經(jīng)進入了很成熟的階段,沒有什么特別激動人心的問題和成果。恰恰相反,現(xiàn)在個性化推薦技術面臨很大的挑戰(zhàn),這也是本文力圖讓大家認識的。接下來進入正題!我將列出十個挑戰(zhàn)(僅代表個人觀點),其中有一些是很多年前就認識到但是沒有得到解決的長期問題,有一些事實上不可能完全解決,只能提出改良方案,還有一些是最近的一些研究提出來的焦點問題。特別要提醒讀者注意的是,這十個挑戰(zhàn)并不是孤立的,極有可能一個方向上的突破能夠對若干重大挑戰(zhàn)都帶來進展。
挑戰(zhàn)一:數(shù)據(jù)稀疏性問題。
現(xiàn)在待處理的推薦系統(tǒng)規(guī)模越來越大,用戶和商品(也包括其他物品,譬如音樂、網(wǎng)頁、文獻……)數(shù)目動輒百千萬計,兩個用戶之間選擇的重疊非常少。如果用用戶和商品之間已有的選擇關系占所有可能存在的選擇關系的比例來衡量系統(tǒng)的稀疏性,那么我們平時研究最多的MovieLens數(shù)據(jù)集的稀疏度是4.5%,Netflix是1.2%。這些其實都是非常密的數(shù)據(jù)了,Bibsonomy是0.35%,Delicious是0.046%。想想淘寶上號稱有近10億商品,平均而言一個用戶能瀏覽1000件嗎,估計不能,所以稀疏度應該在百萬分之一或以下的量級。數(shù)據(jù)非常稀疏,使得絕大部分基于關聯(lián)分析的算法(譬如協(xié)同過濾)效果都不好。這種情況下,通過珍貴的選擇數(shù)據(jù)讓用戶和用戶,商品和商品之間產(chǎn)生關聯(lián)的重要性,往往要比用戶之間對商品打分的相關性還重要。舉個例子來說,你注意到一個用戶看了一部鬼片,這就很大程度上暴露了用戶的興趣,并且使其和很多其他看過同樣片子的用戶關聯(lián)起來了——至于他給這個片子評價高還是低,反而不那么重要了。事實上,我們最近的分析顯示,稀疏數(shù)據(jù)情況下給同一個商品分別打負分(低評價)和打正分的兩個用戶要看做正相關的而非負相關的,就是說負分扮演了“正面的角色”——我們需要很嚴肅地重新審查負分的作用,有的時候負分甚至作用大于正分。
這個問題本質上是無法完全克服的,但是有很多辦法,可以在相當程度上緩解這個問題。首先可以通過擴散的算法,從原來的一階關聯(lián)(兩個用戶有多少相似打分或者共同購買的商品)到二階甚至更高階的關聯(lián),甚至通過迭代尋優(yōu)的方法,考慮全局信息導致的關聯(lián)。這些方法共同的缺點是建立在相似性本身可以傳播的假設上,并且計算量往往比較大。其次在分辨率非常高的精度下,例如考慮單品,數(shù)據(jù)可能非常稀疏。但是如果把這些商品信息粗粒化,譬如只考慮一個個的品類,數(shù)據(jù)就會立刻變得稠密。如果能夠計算品類之間的相似性,就可以幫助進行基于品類的推薦(圖2是品類樹的示意圖)。在語義樹方面有過一些這方面的嘗試,但是很不成熟,要應用到商品推薦上還需要理論和技術上的進步。另外,還可以通過添加一些缺省的打分或選擇,提高相似性的分辨率,從而提高算法的精確度。這種添加既可以是隨機的,也可能來自于特定的預測算法。
隨機的缺省分或隨機選擇為什么會起到正面的作用呢,僅僅是因為提高了數(shù)據(jù)的密度嗎?我認為仔細的思考會否決這個結論。對于局部熱傳導的算法,添加隨機連接能夠整體把度最小的一些節(jié)點的度提高,從而降低小度節(jié)點之間度差異的比例(原來度為1的節(jié)點和度為3的節(jié)點度值相差2倍,現(xiàn)在都加上2,度為3的節(jié)點和度為5的節(jié)點度值相差還不到1倍),這在某種程度上可以克服局部熱傳導過度傾向于推薦最小度節(jié)點的缺陷。類似地,隨機鏈接可以克服協(xié)同過濾或局部能量擴散算法過度傾向于推薦最大度節(jié)點的缺陷??傊?,如果拉小度的比例差異能夠在某種程度上克服算法的缺陷,那么使用隨機缺省打分就能起到提高精確度的作用。
圖2:品類樹的示意圖
挑戰(zhàn)二:冷啟動問題。
新用戶因為罕有可以利用的行為信息,很難給出精確的推薦。反過來,新商品由于被選擇次數(shù)很少,也難以找到合適的辦法推薦給用戶——這就是所謂的冷啟動問題。如果我們能夠獲得商品充分的文本信息并據(jù)此計算商品之間的相似性,就可以很好解決冷啟動的問題,譬如我們一般不擔心圖書或者論文推薦會遇到冷啟動的問題。不幸的是,大部分商品不同于圖書和文章本身就是豐富的內(nèi)容,在這種情況下通過人工或者自動搜索爬取的方法商品相應的描述,也會有一定的效果。與之相似,通過注冊以及詢問得知一些用戶的屬性信息,譬如年齡、居住城市、受教育程度、性別、職業(yè)等等,能夠得到用戶之間屬性的相似度,從而提高冷啟動時候推薦的精確度。
最近標簽系統(tǒng)(tagging systems)的廣泛應用提供了解決冷啟動問題的可能方案。因為標簽既可以看作是商品內(nèi)容的萃取,同時也反映了用戶的個性化喜好——譬如對《桃姐》這部電影,有的人打上標簽“倫理”,有的人打上標簽“劉德華”,兩個人看的電影一樣,但是興趣點可能不盡相同。當然,利用標簽也只能是提高有少量行為的用戶的推薦準確性,對于純粹的冷啟動用戶,是沒有幫助的,因為這些人還沒有打過任何標簽。系統(tǒng)也可以給商品打上標簽,但是這里面沒有個性化的因素,效果會打一個折扣。從這個意義上講,利用標簽進行推薦、激勵用戶打標簽以及引導用戶選擇合適的標簽,都非常重要。
要緩解冷啟動的問題,一種有效的辦法是盡可能快地了解用戶的特點和需求,所以如何設計問卷調查本身以及如何利用其中的信息也是一門大學問。與之相對應,對于一個新商品,怎么樣讓用戶,特別是有影響力的用戶,對其給出高質量的評價,對于解決冷啟動問題也有重大價值。如何在保證一定推薦精度的情況下,讓新用戶和新商品的特性盡快暴露,是一個很有意義也很困難的研究難題。
最近一個有趣的研究顯示,新用戶更容易選擇特別流行的商品——這無論如何是一個好消息,說明使用熱銷榜也能獲得不錯的結果。冷啟動問題還可以通過多維數(shù)據(jù)的交叉推薦和社會推薦的方法部分解決,其精確度和多樣性又遠勝于熱銷榜,這一點我們在后面會進一步介紹。
未完待續(xù):個性化推薦十大挑戰(zhàn)(中)
本文來源:產(chǎn)品中國
個人認為作為第三方推薦系統(tǒng)來說,艾克斯智能的冷啟動解決的最好了,基本實時生成了用戶畫像和推薦內(nèi)容。
話說有做個性化推薦的PM童鞋一起交流嗎?