99国产精品久久久久精品三级,午夜精品久久久久久久四虎

搜索

APP

起點課堂會員權益

職業體系課特權

線下行業大會特權

個人IP打造特權

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業技能直播

會員專屬社群

榮耀標識

發布

注冊 | 登錄

電商系統搜索場景推薦的千人千面——語料庫建立

小鑷子

2022-07-30

1 評論 11755 瀏覽 99 收藏

14 分鐘

編輯導讀：搜索是產品最常見的功能，尤其是電商產品，利用搜索功能和場景推薦功能，達成千人千面的效果。本文作者以語料庫的建立為例子展開分析，希望對你有幫助。

搜索和推薦場景的聯動行為，千人千面的用戶興趣；

01 搜索步驟

用戶輸入搜索關鍵詞，搜索系統根據輸入信息，篩選出用戶可能喜歡的內容，同時按照某種重要性進行排序并展示。簡單而言，搜索可以分為三步：

對用戶輸入搜索詞的解讀
根據搜索詞對內容篩選
對篩選后的結果集排序并展現，并且根據用戶反饋進入新的搜索服務

1. 搜索前行為記錄

條件：對用戶當前需求沒有顯式信息
定位：以推薦為主
典型產品：搜索底紋、搜索發現、歷史搜索詞、熱門搜索詞
搜索物料：歷史搜索詞、短期、長期商品交互（點擊、加購、收藏、購買）、其他人的搜索及站內行為

2. 搜索中行為記錄

條件：需求部分已知
定位：輔助查詢輸入
典型產品：查詢智能補全(SUG) /搜索聯想
搜索物料：短期、長期商品交互(點擊、加購、收藏、購買)、其他人的搜索及站內行為

3. 搜索后的行為結果

條件: 用戶完成搜索，已獲取結果列表，排序及展示結果頁
定位: 輔助用戶修正結果或重新查詢
典型產品: 相關搜索、篩選、泛詞引導/錦囊、搜索糾錯，搜索確認、搜索排序
搜索物料:搜索詞下類目重要屬性，短期、長期商品交互(點擊、加購、收藏、購買)、其他人的搜索及站內行為

02 動態流通語料庫

語料庫的語種，語料庫也可以分成單語的(Monolingual)、雙語的(Bilingual)和多語的(Multilingual)，按照語料的采集單位，語料庫又可以分為語篇的、語句的、短語的；雙語和多語語料庫按照語料的組織形式，還可以分為平行(對齊)語料庫和比較語料庫，統稱為的語料構成譯文關系。

語料:從單語種到多語種
數量:從百萬級到千萬級再到億級和萬億級
加工:從詞法級到句法級再到語義和語用級
文本:從抽樣到全文
特點:動態性，不確定一個固定的庫容量(例如:把庫容量目標確定為數百萬字，上千萬字，數千萬字，數億字等)

不確定一個固定的選擇文本的時間段(例如:確定為49年-82年，80年-90年，90年-95年語料等)；

不確定一個固定的文本選擇范圍或應用領域(例如:確定為只收現代漢語文學語料，或新聞語料，或科技語料或中小學生語料等，從而建立一些專門的語料庫)；

不確定一些固定的文本抽樣對象(例如三只松鼠，新能源電池，蒙牛酸奶，等)。

定時抽取的語料庫:根據大眾媒體的傳播情況，依據一定的原則來動態抽??；以觀察和測量到流通度的變化情況，可以追蹤到語言成分的產生，成長和消亡。

03 搜索的精準匹配推薦與記錄

搜索詞充當了用戶與搜索工具之間的重要溝通載體，借助關鍵詞實現用戶自我意識與搜索引擎之間的交流，形成了一個意識產生、關鍵詞轉化、搜索、信息獲取、動機滿足的信息閉環。

當然還有很多因素也會去影響這個閉環，如用戶(歷史行為，瀏覽偏好，性別、年齡等)、地域、天氣，一個宏觀、長周期的鏈路等。

根據搜索的過程，可以拆解用戶的搜索流程如下：搜索入口-搜索觸發-內容輸入-點擊搜索-反饋結果。我們從這個流程的各個環節上來看四大電商app(京東、天貓、手淘、拼多多)的搜索功能，進行對比分析。

電商搜索為例，以用戶搜索過程中輸入搜索詞(點擊“搜索“按鈕到按下”回車“之間發生的事)的過程為切入點，結合產品及技術方案展開，結合相關搜索詞功能進行論述；

從而形成分詞：長尾詞，屬性詞，精準大詞，短詞、單詞、雙詞。

劃分等級：搜索熱度、點擊率、頻率、競爭度、時間段落。

04 搜索詞自動索引推薦產生聯想效應

關鍵詞匹配/補全/聯想/糾錯的作用主要劃分為：引導、糾錯和高效。

通過統計再計算，用戶在第一次查詢中得到預期搜索結果的概率非常低，所以需要引導查詢自動建議可以減少用戶搜索的工作量，并通過數據挖掘(群體行為和智慧)來給出高頻恰當的搜索建議，語料庫的詞匹配與聯動效應，在不斷的記錄分詞中構造出相對完整的詞庫。

搜索時使用了前綴匹配，但是手淘和天貓使用了拓展icon，可快速將推薦詞黏貼至搜索框，京東使用了屬性、標簽、類目擴展 (除了對輸入內容做聯想，還會展示出與關鍵詞相關的維度，自動補全關鍵詞，增加用戶的選擇)，拼多多則相對搜索詞產品探索較少。不過目的都是幫助用戶快速鎖定意圖，并開展搜索。

用戶在搜索框輸入字符時，會在搜索框下面實時顯示下拉提示詞給用戶，方便用戶選擇；可以幫助用戶快速輸入和優化搜索條件，且避免輸入錯誤；在此基礎上很多電商app也出現了篩選功能，在當前搜索建議詞基礎上進行擴展，進一步減少用戶操作，一般在用戶搜索的不夠具體，會推薦該搜索詞更細的分類。

淘寶的輔助多重篩選搜索，輸入時展現的一系列聯想內容，點擊右邊的一個拓展icon，就可以采用聯想出的內容，在此基礎上繼續縮小范圍篩選，從而幫助用戶獲得最接近需求的內容。

通過當前實時輸入的詞去匹配候選詞，一般查詢頻度和同查詢詞的歷史查詢記錄為重要參考依據。

在搜索詞補全和聯想數量上，淘寶為10條，拼多多為10條，京東/天貓超過10條，但是不能過多，過多的選擇會給用戶造成記憶負擔，并且占據空間，有損用戶體驗，所以需要控制數量以便信息不會過載。

當然部分電商在歷史的版本迭代中會嘗試在搜索輸入階段進行糾錯，比如輸入聯衣群，下拉框中自動糾正為連衣裙的一些選項，目前四個電商app均并無此功能，而是在搜索結果展示內做糾錯及提醒；自動容錯功能，將極大地提升用戶體驗，并提升用戶的購買率。

語料庫的建立實現：

可選擇對接第三個已有的語料庫開放平臺（可減少開發時長）
自主構建語料庫體系

前綴匹配原則，完整詞未出現時一般使用補全/聯想功能，品類引導詞為主；當出現明顯品類詞后開始出現更細粒度屬性及標簽篩選詞。一般從Query log中挖掘出大量候選Query，并且保證前綴相同，然后根據某種計算模型給候選Query 計算一個分數，最后按照分數選出TopK作為最終結果。

主要考慮因素:當前搜索詞，用戶(性別、年齡等特征)，日志中的群體。

常見搜索引擎均帶有Suggestion功能，直接使用前綴匹配后的候選詞(Trie樹 + TopK算法,回溯算法遍歷trie樹)，使用用戶搜索頻度最高的TopK個搜索詞,但是這樣會使長尾詞無法得到曝光機會。

05 AC聯動算法

在用戶進行搜索商品時，通過用戶與搜索詞信息進行意圖預測，并輔之以類目、性別預測，前綴匹配后最終將某個性別和類目下的共現最高的TopK熱搜詞作為搜索框下拉框提示詞。

復雜模型版1

復雜模型版，使用前綴匹配算法進行候選集召回(若召回量過少，考慮非前綴匹配結果)，并做簡單截斷；然后使用用戶特征(性別、年齡、行為序列)、Context特征(季節、天氣、溫度、地理位置)進行、當前搜索詞的Embedding Vector，然后候選搜索詞也有一個Embedding Vector，三個Vector分別與候選Vector計算Cosine similarity，最終使用一個線性模型融合三個分數，最終的排序結果會進行語義去重再選擇TopK(這里也可以用生成模型來做排序)。

這里可以將用戶、Context均視為搜索詞，就可以用日志數據構造Doc，最終使用Doc2vec或Word2vec。

通過語義、行為、Session log等挖掘出Query間相似分，并加入用戶、搜索詞、Context類特征及其交叉特征。多維度相似融合再排序: 按照點擊相似度、文本相似度、Session相似度衡量Query之間的相似度，得到候選的Pair（可選）交給重排序模塊，對Query pair的優先級做優化，生成Top K的改寫結果。

query2query召回基于行為:?item cf/swing、Simrank++基于session:?Word2vec、Seq2seq基于內容:?Query2vec(類似Word2vec，構建Query序列)query排序模型:?LR/GBDT

樣本:?用戶日志，行為加權(展現:1,點擊:5,購買:50)

特征:?搜索詞的Pv/Ctr/Cvr，用戶是否活躍，用戶畫像/特征，用戶+候選詞(查詢詞/瀏覽詳情頁與熱搜候選詞相似度)，Context特征(地理位置，溫度，天氣等)