電商系統搜索場景推薦的千人千面——語料庫建立

1 評論 11066 瀏覽 94 收藏 14 分鐘

編輯導讀:搜索是產品最常見的功能,尤其是電商產品,利用搜索功能和場景推薦功能,達成千人千面的效果。本文作者以語料庫的建立為例子展開分析,希望對你有幫助。

搜索和推薦場景的聯動行為,千人千面的用戶興趣;

01 搜索步驟

用戶輸入搜索關鍵詞,搜索系統根據輸入信息,篩選出用戶可能喜歡的內容,同時按照某種重要性進行排序并展示。簡單而言,搜索可以分為三步:

  1. 對用戶輸入搜索詞的解讀
  2. 根據搜索詞對內容篩選
  3. 對篩選后的結果集排序并展現,并且根據用戶反饋進入新的搜索服務

1. 搜索前行為記錄

  • 條件:對用戶當前需求沒有顯式信息
  • 定位:以推薦為主
  • 典型產品:搜索底紋、搜索發現 、歷史搜索詞、熱門搜索詞
  • 搜索物料:歷史搜索詞、短期、長期商品交互(點擊、加購、收藏、購買)、其他人的搜索及站內行為

2. 搜索中行為記錄

  • 條件:需求部分已知
  • 定位:輔助查詢輸入
  • 典型產品:查詢智能補全(SUG) /搜索聯想
  • 搜索物料:短期、長期商品交互(點擊、加購、收藏、購買)、其他人的搜索及站內行為

3. 搜索后的行為結果

  • 條件: 用戶完成搜索, 已獲取結果列表 ,排序及展示結果頁
  • 定位: 輔助用戶修正結果或重新查詢
  • 典型產品: 相關搜索、篩選、泛詞引導/錦囊、搜索糾錯,搜索確認、搜索排序
  • 搜索物料:搜索詞下類目重要屬性,短期、長期商品交互(點擊、加購、收藏、購買)、其他人的搜索及站內行為

02 動態流通語料庫

語料庫的語種,語料庫也可以分成單語的(Monolingual)、雙語的(Bilingual)和多語的(Multilingual),按照語料的采集單位,語料庫又可以分為語篇的、語句的、短語的;雙語和多語語料庫按照語料的組織形式,還可以分為平行(對齊)語料庫和比較語料庫,統稱為的語料構成譯文關系。

  • 語料:從單語種到多語種
  • 數量:從百萬級到千萬級再到億級和萬億級
  • 加工:從詞法級到句法級再到語義和語用級
  • 文本:從抽樣到全文
  • 特點:動態性,不確定一個固定的庫容量(例如:把庫容量目標確定為數百萬字,上千萬字,數千萬字,數億字等)

不確定一個固定的選擇文本的時間段(例如:確定為49年-82年,80年-90年,90年-95年語料等);

不確定一個固定的文本選擇范圍或應用領域(例如:確定為只收現代漢語文學語料,或新聞語料,或科技語料或中小學生語料等,從而建立一些專門的語料庫);

不確定一些固定的文本抽樣對象(例如三只松鼠,新能源電池,蒙牛酸奶,等)。

定時抽取的語料庫:根據大眾媒體的傳播情況,依據一定的原則來動態抽??;以觀察和測量到流通度的變化情況,可以追蹤到語言成分的產生,成長和消亡。

03 搜索的精準匹配推薦與記錄

搜索詞充當了用戶與搜索工具之間的重要溝通載體,借助關鍵詞實現用戶自我意識與搜索引擎之間的交流,形成了一個意識產生、關鍵詞轉化、搜索、信息獲取、動機滿足的信息閉環。

當然還有很多因素也會去影響這個閉環,如用戶(歷史行為,瀏覽偏好,性別、年齡等)、地域、天氣,一個宏觀、長周期的鏈路等。

根據搜索的過程,可以拆解用戶的搜索流程如下:搜索入口-搜索觸發-內容輸入-點擊搜索-反饋結果。我們從這個流程的各個環節上來看四大電商app(京東、天貓、手淘、拼多多)的搜索功能,進行對比分析。

電商搜索為例,以用戶搜索過程中輸入搜索詞(點擊“搜索“按鈕到按下”回車“之間發生的事)的過程為切入點,結合產品及技術方案展開,結合相關搜索詞功能進行論述;

從而形成分詞:長尾詞,屬性詞,精準大詞,短詞、單詞、雙詞。

劃分等級:搜索熱度、點擊率、頻率、競爭度、時間段落。

04 搜索詞自動索引推薦產生聯想效應

關鍵詞匹配/補全/聯想/糾錯的作用主要劃分為:引導、糾錯和高效。

通過統計再計算,用戶在第一次查詢中得到預期搜索結果的概率非常低,所以需要引導查詢自動建議可以減少用戶搜索的工作量,并通過數據挖掘(群體行為和智慧)來給出高頻恰當的搜索建議,語料庫的詞匹配與聯動效應,在不斷的記錄分詞中構造出相對完整的詞庫。

搜索時使用了前綴匹配,但是手淘和天貓使用了拓展icon,可快速將推薦詞黏貼至搜索框,京東使用了屬性、標簽、類目擴展 (除了對輸入內容做聯想,還會展示出與關鍵詞相關的維度,自動補全關鍵詞,增加用戶的選擇),拼多多則相對搜索詞產品探索較少。不過目的都是幫助用戶快速鎖定意圖,并開展搜索。

用戶在搜索框輸入字符時,會在搜索框下面實時顯示下拉提示詞給用戶,方便用戶選擇;可以幫助用戶快速輸入和優化搜索條件,且避免輸入錯誤;在此基礎上很多電商app也出現了篩選功能,在當前搜索建議詞基礎上進行擴展,進一步減少用戶操作,一般在用戶搜索的不夠具體,會推薦該搜索詞更細的分類。

淘寶的輔助多重篩選搜索,輸入時展現的一系列聯想內容,點擊右邊的一個拓展icon,就可以采用聯想出的內容,在此基礎上繼續縮小范圍篩選,從而幫助用戶獲得最接近需求的內容。

通過當前實時輸入的詞去匹配候選詞,一般查詢頻度和同查詢詞的歷史查詢記錄為重要參考依據。

在搜索詞補全和聯想數量上,淘寶為10條,拼多多為10條,京東/天貓超過10條,但是不能過多,過多的選擇會給用戶造成記憶負擔,并且占據空間,有損用戶體驗,所以需要控制數量以便信息不會過載。

當然部分電商在歷史的版本迭代中會嘗試在搜索輸入階段進行糾錯,比如輸入聯衣群,下拉框中自動糾正為連衣裙的一些選項,目前四個電商app均并無此功能,而是在搜索結果展示內做糾錯及提醒;自動容錯功能,將極大地提升用戶體驗,并提升用戶的購買率。

語料庫的建立實現:

  1. 可選擇對接第三個已有的語料庫開放平臺(可減少開發時長)
  2. 自主構建語料庫體系

前綴匹配原則,完整詞未出現時一般使用補全/聯想功能,品類引導詞為主;當出現明顯品類詞后開始出現更細粒度屬性及標簽篩選詞。一般從Query log中挖掘出大量候選Query,并且保證前綴相同,然后根據某種計算模型給候選Query 計算一個分數,最后按照分數選出TopK作為最終結果。

主要考慮因素:當前搜索詞,用戶(性別、年齡等特征),日志中的群體。

常見搜索引擎均帶有Suggestion功能,直接使用前綴匹配后的候選詞(Trie樹 + TopK算法,回溯算法遍歷trie樹),使用用戶搜索頻度最高的TopK個搜索詞,但是這樣會使長尾詞無法得到曝光機會。

05 AC聯動算法

在用戶進行搜索商品時,通過用戶與搜索詞信息進行意圖預測,并輔之以類目、性別預測,前綴匹配后最終將某個性別和類目下的共現最高的TopK熱搜詞作為搜索框下拉框提示詞。

復雜模型版1

復雜模型版,使用前綴匹配算法進行候選集召回(若召回量過少,考慮非前綴匹配結果),并做簡單截斷;然后使用用戶特征(性別、年齡、行為序列)、Context特征(季節、天氣、溫度、地理位置)進行、當前搜索詞的Embedding Vector,然后候選搜索詞也有一個Embedding Vector,三個Vector分別與候選Vector計算Cosine similarity,最終使用一個線性模型融合三個分數,最終的排序結果會進行語義去重再選擇TopK(這里也可以用生成模型來做排序)。

這里可以將用戶、Context均視為搜索詞,就可以用日志數據構造Doc,最終使用Doc2vec或Word2vec。

通過語義、行為、Session log等挖掘出Query間相似分,并加入用戶、搜索詞、Context類特征及其交叉特征。多維度相似融合再排序: 按照點擊相似度、文本相似度、Session相似度衡量Query之間的相似度,得到候選的Pair(可選)交給重排序模塊,對Query pair的優先級做優化,生成Top K的改寫結果。

query2query召回基于行為:?item cf/swing、Simrank++基于session:?Word2vec、Seq2seq基于內容:?Query2vec(類似Word2vec,構建Query序列)query排序模型:?LR/GBDT

樣本:?用戶日志,行為加權(展現:1,點擊:5,購買:50)

特征:?搜索詞的Pv/Ctr/Cvr,用戶是否活躍,用戶畫像/特征,用戶+候選詞(查詢詞/瀏覽詳情頁與熱搜候選詞相似度),Context特征(地理位置,溫度,天氣等)

文獻參考:【數據堂】/【陌生人社交算法拆解】

#專欄作家#

村上春樹,人人都是產品經理專欄作家。養成挖掘性的思考習慣、綜合、市場、運營、技術、設計、數據、擅長跨境電商,綜合電商與商業模型。

本文原創發布于人人都是產品經理,未經作者許可,禁止轉載。

題圖來自Unsplash,基于CC0協議。

專欄作家

小鑷子,人人都是產品經理專欄作家。養成挖掘性的思考習慣、綜合、市場、運營、技術、設計、數據、擅長跨境電商,綜合電商與商業模型。

本文原創發布于人人都是產品經理,未經作者許可,禁止轉載。

題圖來自Unsplash,基于CC0協議。

該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 銷售管理制度

    回復