關(guān)于query分析的一些思考

0 評論 6629 瀏覽 25 收藏 13 分鐘

編輯導(dǎo)語:query 是一個查詢參數(shù)類 ,封裝了查詢條件,分頁,排序等功能,在搜索功能設(shè)計中,會接觸到此功能;如今隨著互聯(lián)網(wǎng)的不斷發(fā)展,我們會經(jīng)常網(wǎng)上進行搜索查詢,并且能從搜索出來的結(jié)果中得到很多信息;本文作者分享了關(guān)于query分析的一些思考,我們一起來了解一下。

一、引言

如果是你來做搜索功能,你會如何設(shè)計?

在我之前參與項目的搜索功能,前期只提供搜索最基本的功能,如搜索入口、搜索框、模糊搜索、搜索結(jié)果;在后續(xù)迭代的版本也很少優(yōu)化到搜索功能,因為在當(dāng)前業(yè)務(wù)范圍它的優(yōu)先級降屬于較低,但實際上搜索功能不僅限如此。

搜索主要目的是根據(jù)用戶輸入的信息查找匹配的內(nèi)容?;诖髷?shù)量基于大量數(shù)據(jù)的產(chǎn)品搜索功能才能發(fā)揮它極大的價值。

搜索功能我們可以拆解成三個模塊:搜索前、搜索中、搜索后

  • 搜索前:搜索入口、搜索引導(dǎo)、搜索熱詞等;
  • 搜索中:關(guān)聯(lián)詞、下拉提示、自動糾錯等;
  • 搜索后:無結(jié)果內(nèi)容的推薦、有結(jié)果內(nèi)容的排序等。

本篇文章想要圍繞【搜索中】模塊去展開討論,當(dāng)用戶在前端輸入內(nèi)容時,系統(tǒng)會如何處理去幫助用戶進行搜索呢?

二、案例

在分析搜索詞數(shù)據(jù)中發(fā)現(xiàn)大部分的用戶會通過“pg”去搜索商品,沒有產(chǎn)生任何瀏覽或交易等行為;于是在自有的產(chǎn)品和其他電商平臺使用“pg”搜索,在自有平臺是未查詢到任何商品信息,其他電商平臺卻能搜索到與蘋果相關(guān)的商品信息,比如蘋果水果、iPhone手機等。

當(dāng)用戶在使用搜索查找商品并未出現(xiàn)期待值的結(jié)果時,等于對這行為畫上了等號;用戶可能會重新搜索商品或直接退出程序轉(zhuǎn)向其他平臺,這無疑對平臺是一個損失,沒有留住用戶,沒有產(chǎn)生任何轉(zhuǎn)化率。

平臺屬于二手手機電商并有銷售iPhone手機,我們也嘗試過以輸入商品名稱進行搜索,它是能正確找到商品;系統(tǒng)目前是將商品名稱作為搜索的唯一標(biāo)準(zhǔn),這遠遠覆蓋不了用戶的需求,每個人對商品的叫法不同,導(dǎo)致相同的物品會存在不同的叫法,搜索習(xí)慣也會不一樣。

比如iPhone,大部分人會在潛意識里接將iPhone翻譯成中文“蘋果手機”,有的人習(xí)慣用蘋果的縮寫“pg”、蘋果拼音“pingguo”或蘋果等其他叫法進行搜索。你看,不同的搜索內(nèi)容但對應(yīng)的商品卻是相同的,因為系統(tǒng)只能通過搜索商品名稱與數(shù)據(jù)庫的商品進行匹配,才會理解不了用戶其他的需求,導(dǎo)致用戶搜索不到相關(guān)商品。

當(dāng)平臺希望用戶通過搜索方式提高商品的曝光率、點擊率或下單率等。那需要去分析用戶的每個搜索詞以及產(chǎn)生的結(jié)果,不能讓已存在的商品因為搜索功能不足而去增加用戶搜索步驟,每多一個步驟都會造成用戶的流失可能性;并不是每個用戶都會按照平臺定義的商品名稱去進行搜索,我們應(yīng)當(dāng)擴大搜索匹配的范圍,讓不同的叫法都能找到對應(yīng)的商品,從而提高用戶搜索效率。

所以該如何去擴大搜索匹配的范圍呢?

三、解放方案

根據(jù)阿里提供的開放搜索文檔中,我們可以知道搜索流程:

對于搜索流程我這樣理解,用戶在前端輸入query并確認搜索,系統(tǒng)需要對query進行預(yù)處理,將原始的數(shù)據(jù)轉(zhuǎn)換為可以理解的語義,對query進行一系列智能分析(停用詞、拼寫糾錯、同義詞等),將用戶輸入的query進行改寫后再召回,在通過算法排序按照用戶的搜索意圖進行前后排序,這樣就完成一次搜索。

1.?為什么要query分析?

Query是指用戶輸入的搜索詞,它直接決定搜索的結(jié)果是否滿足需求。query分析是將搜索詞演變成多個搜索場景進行多次搜索。

以商品“西紅柿”為例,前提搜索條件以商品標(biāo)題為準(zhǔn)。

場景1:北方稱為“西紅柿”,南方稱為“番茄”, 因南北文化差異導(dǎo)致了同個商品對應(yīng)不同的名稱。平臺的商品名稱“西紅柿”,南方用戶會以“番茄”進行搜索。

場景2:在搜索頁面喚醒的鍵盤恰好是iPhone的英文鍵盤,從英文鍵盤切換到九宮格有兩種方式,一個是切換鍵盤的“地球”按鈕,需要切換到4次才能到九宮格;另一種是長按鍵盤“地球”按鈕選擇九宮格鍵盤。兩種切換方式都有點繁瑣,想直接在英文鍵盤上以拼音的方式輸入商品名稱“xihongshi” 。

場景3:晚上下班后沒有在公司附近解決晚餐,在公交車上點好外賣等到家就能夠吃上;由于是下班高峰期車上的人流量很大,偶爾會出現(xiàn)急剎車的突發(fā)情況,需要一手抓住扶手,另一只手在手機上點外賣;現(xiàn)在的手機都是大屏幕,一只手很難輕松的觸碰到整個鍵盤,會輸入商品名稱縮寫“xhs”。

由以上場景得出的結(jié)論,在不同的場景下用戶會以不同的query來搜索同個商品。當(dāng)以商品名稱的標(biāo)準(zhǔn)來搜索會找不到對應(yīng)的商品,用戶可能會換個詞繼續(xù)搜索,但也可能會去其他的平臺進行搜索或并購買商品。

為了避免以上情況,系統(tǒng)需要通過query去辨識場景的類型提供不同的策略,為用戶找到更多的商品。

阿里提供的query分析策略是:停用詞、拼寫糾錯、同義詞等詞庫;當(dāng)找到相關(guān)商品時,結(jié)合類目預(yù)測和點擊行為數(shù)據(jù)進行優(yōu)先級排序。類目預(yù)測是指不同的名稱對應(yīng)的商品類目會有所不同,而行為數(shù)據(jù)有瀏覽、收藏、下單等。

舉例:

用戶輸入的query是“蘋果”,在找到的對應(yīng)的商品時,其中一部分所屬的類目是“水果”,另一部分所屬的類目是“電子產(chǎn)品”,根據(jù)行為數(shù)據(jù),在搜索“蘋果”的人里面,點擊“電子產(chǎn)品”類目下的商品要大于“水果”類目的人。

  • 當(dāng)在用戶對商品沒有產(chǎn)生行為的時,可優(yōu)先根據(jù)之前采集的數(shù)據(jù)優(yōu)先顯示“電子產(chǎn)品”下的商品,其次是”水果”;
  • 當(dāng)用戶在搜索結(jié)果頁面或其他頁面瀏覽了“水果”類目的商品,再次搜索時會優(yōu)先顯示“水果”。

商品的排序是與query的數(shù)據(jù)相結(jié)合,其次才會針對個人的行為數(shù)據(jù)優(yōu)先顯示商品。

2.?query分析方式

圍繞停用詞、拼寫糾錯、同義詞展開分析。

1)停用詞

停用詞是指在信息檢索中,過濾關(guān)鍵詞中無意義的詞去提高搜索效率否則會影響到搜索結(jié)果。常見詞有“的、了、么、呢、吧、啊”等語氣詞以及標(biāo)點符號等。

在人們?nèi)粘=涣髦型ǔF谡Z化,會潛意識的在書面表達中展示出來;以至于在輸入query時容易口語化帶入語氣詞,當(dāng)大部分商品含有同個語氣詞時,是無法保證提供真正相關(guān)的搜索結(jié)果,同時降低搜索的效率,對停用詞進行干預(yù)是為用戶召回較為精準(zhǔn)的搜索結(jié)果。

舉例:

“海南的香蕉”是口語化的方式,但query是“海南的香蕉” 會發(fā)現(xiàn)搜索結(jié)果了了無幾,將query換成“海南香蕉”卻會找到相關(guān)商品,就需要對搜索詞進行干預(yù)屏蔽“的”,最終query“海南的香蕉” 呈現(xiàn)的結(jié)果與“海南香蕉”一致。

2)拼寫糾錯

拼寫糾錯是指用戶輸入query存在錯別字為其提供自定義糾錯行為。錯誤的輸入會導(dǎo)致查詢結(jié)果不符合或無結(jié)果,因此需要對用戶的輸入進行檢查并給出糾錯建議,對于確定的拼寫錯誤直接改寫成正確。

中國漢字有大量同音不同字的詞語,在拼音輸入法中容易存在錯別字。用戶在輸入的過程中對某個錯別字有著高頻率的使用,日后的拼音輸入中也會高頻率的出現(xiàn);因為輸入法越來越智能,是會記錄你的行為并且輸入拼音后的第一個字就是你上次選擇的字。

舉例:

“福健特產(chǎn)”、“口服夜”、“頭胞”。

3)同義詞

同義詞是指同個商品存在不同的表達方式,分為標(biāo)準(zhǔn)詞(原名稱)和其他名稱;不論是輸入標(biāo)準(zhǔn)名稱或其他名稱都能夠找到該商品。同義詞主要功能是對query進行同義擴展,與商品其他名稱進行關(guān)聯(lián)找到更多相關(guān)商品。

在電商搜索環(huán)境中,同義詞分為好幾類:國際品牌同義詞、新詞舊詞替換、地區(qū)稱呼不同等。

國際品牌同義詞:

為了提高國外品牌在國內(nèi)知名度及方便國內(nèi)用戶能快速記住品牌名,在進入中國市場會建立中文名稱。讓同個商品多了一個名稱,所以用戶通常會對中文名稱印象深刻;比如國外品牌“adidas”、中文名稱“阿迪達斯”、簡稱“阿迪”。

新舊詞替換:

不同時期對同個事物的稱呼不一樣,這些不同的稱呼又同時存在一個時代里面。以“自行車”為例,70年代稱“二八大杠、洋車、腳踏車” 、80年代稱“自行車”、90年代稱“單車”。

地區(qū)稱呼不同:

我們常說南北方文化差異,是指在同個事物有不同的稱呼。事實上不僅是南北方,每個省份、每個城市對事物有特定的稱呼,以餛飩為例,四川稱“抄手”、廣東稱“云吞”、北方稱“餛飩”。

不管什么類型的同義詞,如果沒有與其他稱呼相關(guān)聯(lián),則只能召回少量的相關(guān)商品。

四、總結(jié)

在搜索過程中要考慮用戶不同的場景用不同的query搜索同個商品,因為不同的query搜索結(jié)果不同,并不一定滿足用戶的搜索需求。

query分析是將搜索詞演變成多個搜索場景進行多次搜索,所以需要通過query去辨識搜索場景的類型理解用戶搜索意圖為其提供不同的策略,從而擴大搜索范圍為用戶找到更多的商品。

 

本文由@產(chǎn)品狗的日常思考 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于CC0協(xié)議

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!