知識圖譜在推薦系統的落地

8 評論 20232 瀏覽 171 收藏 16 分鐘

本篇文章為大家介紹了什么是推薦系統、推薦系統運作流程、圖譜應用的優勢、圖譜在推薦中的應用、圖譜推薦的原理、圖譜推薦的難點,并附上實際例子幫助大家進一步了解。

隨著互聯網進入了下半場,精益化發展成為了主旋律,為了實現同樣的獲客成本下收益最大化,各家對推薦系統的需求日益強烈。

本文通俗的講述通過幾個段落簡單講述什么是推薦系統、推薦系統運作流程、圖譜應用的優勢、圖譜推薦的原理、圖譜推薦的難點,供大家參考了解。

一、什么是推薦系統

推薦系統,正如它的字面信息一樣,就是通過推薦內容滿足用戶個性化的需求,解決信息過載的問題的系統。

推薦系統根據形式的差異接入了不同的場景,在大家的日常生活中就無時不刻都在享受這它的便利。

當你一大早打開淘寶,掃一眼“猜您喜歡”,發現一個自己喜歡的寶貝,直接添加進購物車;打開今日頭條,看了下自己感興趣的新聞,中間看到一個自己不了解的內容,打開百度輸入后,輸入框下面展示了幾個相關內容……

根據推薦的形式能不能清晰地影響用戶的操作可以把推薦劃分為隱形推薦和顯性推薦。

  • 隱形推薦不會對用戶預期的操作產生影響,如:新聞排序,搜索結果排序等在用戶不知不覺中給用戶展現;
  • 顯性推薦會改變用戶預期的操作,如:輸入聯想、推薦問句等用戶可以根據推薦的內容選擇自己期望的內容。

另外,根據推薦的階段不同,也可以將推薦分為相關性推薦、預測式推薦、生成式推薦。

  • 相關性推薦根據用戶當前信息,召回相似度較高的內容作為推薦的內容;
  • 預測式推薦為根據用戶歷史信息,可以是用戶信息、操作記錄、購買記錄等,預測用戶可能感興趣的內容,作為推薦的內容;
  • 根據用戶的信息推薦,不管是相關性還是預測式的都會導致推薦的內容隨用戶使用時長增加,變得內容單一,降低用戶的新鮮感,因此還需要生成一些無關的內容作為推薦的補充,以滿足用戶的新鮮感,這就是生成式推薦。

二、推薦流程

推薦的過程可以簡單理解為三個步驟:召回、過濾、排序。

  • 首先系統根據獲取到的信息,召回適合推薦內容,獲取的信息可以是用戶的搜索記錄、購買記錄、評論等。
  • 召回的內容中有的是這個用戶不關注的,可能是他已經買過了的寶貝或者已經看過了的內容,這會兒就需要根據過濾的條件,將不需要的內容進行過濾。
  • 經過過濾產生的推薦集還需要根據內容的相關度進行排序,最后系統根據相關度的排序,將內容分配到對應的模塊,這樣用戶就能看到自己感興趣的內容了。

有的系統也會將過濾放在第一步,先根據條件過濾一些輸入信息,然后喂給推薦系統。

這樣能夠減少推薦系統的計算量,縮短推薦系統處理時間,提高推薦系統的即時性,但是這么做也會存在一些問題:減少輸入導致類別特征的內容丟失,影響推薦系統的內容數量與質量。

三、知識圖譜在推薦應用的優勢

知識圖譜就是實體的屬性關系網,能夠很好的表達實體之間的關系,這個關系可以是具有同樣屬性的實體,也可以是上下位的實體關系。

對于推薦系統來說,這個圖譜中的實體不僅僅是推薦的內容,還包含了用戶的信息,或者是標簽,所以知識圖譜很好的提供了一個推薦對象的關系網。

通過知識圖譜,推薦系統可以很好給你推薦關聯內容,例如,你購買了手機,那么它就可以給你推薦充電寶、保護套、鋼化膜等,因為在它的腦子中知道這些產品是手機的附件。

也可以通過用戶搜索的藍牙耳機,給他推薦同樣具有藍牙功能的耳機。

四、圖譜在推薦中的應用

我們通過一個簡單的商品圖譜和大家講解圖譜推薦的遍歷邏輯。這是一個數碼垂類下的耳機的簡化商品圖譜。

1. 下位實體遍歷

下位關系是相關性最強的關系,通常包含的含義是下一步操作、必要條件,例如:買了手機就會買手機殼、買了汽車就會買玻璃水等。

不過也不是所有的下位關系都是能放置在推薦序列的前列中的,例如:筆記本貼紙與筆記本相關,但是不是大家都會貼筆記本貼紙,所以下位關系也存在低概率的情況,這部分就會被其他高概率的遍歷邏輯給擠到較后的排列中。

2. 組合屬性遍歷

在圖譜中有的實體由多個相同的父實體連接,這種實體之間通常具有強相關性,就好比是你同父母的親兄弟,這種推薦也是應用的最多的。

在下面這個實例中就可以理解該用戶為bose的忠實用戶,計劃購買它的耳機,那么我們根據用戶搜索QC30的記錄,推薦QC35、QC25等結果,這樣就既能夠提高成交的可能性,也能夠實現更高的客單價,實現商家、平臺的雙贏。

3. 同屬性遍歷

除了上面兩種相關性較強的遍歷邏輯之外,相同父實體的子實體也具有相關性,但是我們需要注意當一個實體具有多個父實體的情況下,不是所有的父實體都適合被往下遍歷。

例如:用戶咨詢QC30,那么我們給它推薦bose的家庭音響解決方案就不合適,因為用戶本質需求只是購買耳機。

4. 二元實體遍歷

二元實體遍歷適合同類父實體的場景,同類的父實體通常表示這兩個產品是一個互補或者相似的含義。

例如:用戶咨詢QC30,那么他可能需要一個MP4來搭配他的耳機,同樣的情況還有鼠標-鍵盤、短袖-短褲等。

5. 多路徑遍歷對比

優于圖譜中實體之間的關系是網狀的,所以在遍歷時存在兩個實體之間可以通過多種遍歷邏輯推理得到。

那么我們就需要采取一種方式來對比那種遍歷邏輯的結果才是我們應該采用的。

一般會根據邊的權重計算得到兩個實體的相關度。

五、如何過濾

根據推薦系統生成的推薦序列過濾推薦結果,這個根據不同業務方的需要會有很大的差別,這里就簡單說明一些通用的實例:

1. 時間區間內已經發生期望操作的結果

期望操作是指用戶使用產品時,我們期望用戶最終實現的行為,可能是點擊、購買等。

如果用戶已經對推薦的內容發生了期望操作,那么繼續推薦這個內容,無疑會浪費有效面積,導致客單量降低。

為了避免這種情況,推薦系統會針對不同的推薦內容設置一個時間區間,在這個時間區間內已經產生過期望操作的就不再進行推薦,例如,服飾可以設置為1個月,快消品則可以設置更短的時間限制。

2. 展示未產生期望操作的結果

一千個讀者就有一千個哈姆雷特,面對一千個用戶,推薦系統的結果肯定不可能都是一千個都是滿意的,所以當推薦的內容用戶沒有產生期望操作時,系統可以認為該推薦結果對于這個用戶是弱關聯性推薦或者說是無效推薦,那么系統在再次生成推薦序列是就可以將其過濾,讓其他用戶可能感興趣的結果補充進行展示。

3. 同類型的結果

當生成的推薦序列中已經存在很多的同類產品時,我們也需要進行過濾。

同類的結果,用戶只會對其中的幾個結果產生操作,如果過多地展示同類的內容,就會導致推薦的內容豐富度不夠。

一般同類的結果,推薦系統只會保留其中相關度最高的幾個,并且在展示上會將同類結果控制放置間隔,避免一起出現。

六、圖譜推薦指標

圖譜更新前都需要評估相對的效果,只有相對效果優與原先的結果,圖譜才能上線。

評估相對結果的指標可以分為服務指標和業務指標。

  • 服務指標是反映圖譜服務效果的指標,都是一些客觀數據;
  • 業務指標是與業務相關聯的,反映的是服務上線后的服務效果的指標。

1. 服務指標

實體識別準確率=實體解析正確數/用戶問句總數;

實體識別召回率=實體解析正確數/相關實體總數;

內容相關度=用戶評分/推薦數量。

2. 業務指標

展現點擊比=用戶點擊數/展現數量;

轉化率=用戶產生期望操作數/展現數量。

七、圖譜應用的難點

知識圖譜雖然在推薦系統中應用存在優勢,但是在實際應用中會因為它的種種難點被限制應用,下面和大家一起講講圖譜應用的困難。

1. 知識圖譜schema維護

在推薦系統中應用的圖譜都是大規模的圖譜,實體都是在萬級的,像阿里的商品圖譜甚至達到了十億級。那么大的圖譜完全由人工運營維護肯定是不現實的,實際上這些圖譜也的確由系統自動進行維護,人工只是輔助進行運營。

系統通過現成的表結構數據、機器閱讀理解抽取的實體與關系自動構建知識圖譜。

例如:阿里的商品圖譜部分數據來源就是寶貝下面的商品詳情:

但是目前的技術還不能做到100%的自動構建準確,因此構建后如何篩選出有問題的關系就需要人工借助工具進行調整了,常見的需要人工糾正的有:

  1. 同寶貝在不同商家出現不同詳情的情況,需要人工二次確認;
  2. 寶貝詳情變化后,需要人工更新。

2. 推薦的時效性差

圖譜的量級達到了一定,如何快速的萬級億級的實體和屬性中找到對應的數據,對于模型來說是一個十分艱巨的工作。

另外大規模的圖譜,實體之間的關系密切,如果做到的二元遍歷,那么延伸出的實體也是指數量級的,無法直接拿來做推薦。

所以圖譜推薦的時效性較差,不適合應用于需要實時返回推薦結果的場景,所以圖譜推薦往往應用在用戶使用的間隙生成推薦的內容。

例如:資訊推薦、猜您喜歡等

3. 在線維護困難

圖譜中實體的關系十分緊密,這就導致了修改一個實體或者一條邊,那對應的變化可能是幾百個實體和邊,一個小小的改動可能就是蝴蝶效應,而且恢復困難。

所以圖譜服務都是通過本地數據應用于中臺服務中,需要更新圖譜時,再將本地運營的圖譜發布到服務的本地數據庫中應用。

4. 如何避免臟數據對圖譜更新的影響

在購物網站推薦的場景中,圖譜中實體與實體之間的關系是會有概率值來表示兩個實體之間的相關度的。

這個概率值會根據用戶的購買操作記錄自動評估實體與實體之間的概率。但是有時新店為了提高信譽和寶貝的評價,就會發生刷單的行為。

刷榜單的行為會導致圖譜中概率邊的數值被影響,產生不準確的數值,導致推薦出相關度不足的結果。這種情況一般通過清洗訂單數據,只將高置信的購買記錄作為圖譜更新的評估數據。

八、寫在最后

基于知識圖譜的推薦只是推薦系統的一部分,推薦系統是一個復雜的系統。

如今在互聯網的下半場,推薦系統越來越被重視,圖譜在推薦系統中的應用目前還比較淺,期望圖譜的落地更加成熟。

 

本文由 @南風追憶 原創發布于人人都是產品經理。未經許可,禁止轉載

題圖來自 Unsplash ,基于 CC0 協議

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 您好~您的文章寫的很好,可以在微信公眾號上轉發您的文章么,我們公眾號是會挑選一些AI的優質文章作為學術交流不用于商業
    (ID:hualaizhishi)

    來自北京 回復
  2. 第四塊的實體遍歷方式是不是有些和圖片不太對應?

    回復
  3. 學習了

    回復
  4. 我也是推薦產品的工作者,你對知識圖譜的分析非常范圍,18271263932我的微信,希望可以交流

    回復
  5. 學到了很多!謝謝

    來自福建 回復
    1. 感謝關注????

      回復
  6. 我也發表了幾篇關于知識圖譜的文章,希望可以多溝通哈

    來自四川 回復
    1. 嗯嗯,關注

      回復