搜索產(chǎn)品指南:必須知道的幾件事

10 評(píng)論 11850 瀏覽 92 收藏 10 分鐘

搜索產(chǎn)品有很多,其中有哪些需要注意的問題?在技術(shù)之外,我們還需要知道什么?

搜索本身是一個(gè)比較技術(shù)的事情,小白產(chǎn)品想要學(xué)習(xí)搜索的產(chǎn)品知識(shí),就會(huì)發(fā)現(xiàn)各大論壇上的搜索相關(guān)內(nèi)容都是技術(shù)為主。即使買上幾本搜索相關(guān)的書籍也大部分講的是搜索引擎的原理,無從下手去學(xué)習(xí),入門就更難了。

那對(duì)于一個(gè)搜索小白來說,到底應(yīng)該怎么樣去設(shè)計(jì)一個(gè)搜索引擎呢?

搜索路徑:輸入搜索詞-抓取數(shù)據(jù)-分析用戶搜索意圖-識(shí)別意圖并召回內(nèi)容-結(jié)果集排序。

一、抓取數(shù)據(jù)

  1. 搜索引擎:在全網(wǎng)中抓取盡可能全的數(shù)據(jù),供搜索引擎查詢。
  2. 垂類搜索引擎:這些數(shù)據(jù)95%以上都是平臺(tái)自建的,所以不需要去其他平臺(tái)抓取數(shù)據(jù)。如:淘寶、美團(tuán)都是平臺(tái)自己維護(hù)的數(shù)據(jù),平臺(tái)需要做的事情就是盡量讓數(shù)據(jù)準(zhǔn)確、真實(shí)。如果一個(gè)賣衣服的商品錄入的信息全是賣鞋的,即使引擎再好也無法識(shí)別這件“衣服”。

二、分析用戶搜索意圖:分詞、詞語處理、詞語識(shí)別

1. 分詞:?jiǎn)巫址衷~、短語分詞

1)單字分詞

就是用戶輸入詞分成單個(gè)字,每個(gè)單字匹配上搜索域就可以被搜索,這種分詞簡(jiǎn)單易開發(fā),適合spu和品類較少的平臺(tái)。但這種分詞方式有一個(gè)弊病,那就是搜索結(jié)果不準(zhǔn)。

就比如我想搜索“小金鎖”的面膜,那搜索域中匹配上“小”、“金”、“鎖”三個(gè)字就可以被召回,真實(shí)案例就是搜索結(jié)果出現(xiàn)“金色小米手機(jī)人臉解鎖”的手機(jī),尷尬至極。

2)短語分詞

這種分詞方式需要準(zhǔn)備一個(gè)基于自己平臺(tái)的分詞詞庫(kù)(如果沒有找一個(gè)開源詞庫(kù)),分詞引擎基于這個(gè)分詞庫(kù)來分詞并進(jìn)行搜索。

比如你想搜索“小金鎖”,分詞庫(kù)中包含“金鎖”、“小金鎖”,那你搜索的詞就會(huì)被分成“小”、“金鎖”、“小金鎖”,那搜索域中是“金色小米手機(jī)人臉解鎖”的sku就不會(huì)被搜索出來,因?yàn)椤敖疰i”、“小金鎖”這兩個(gè)詞并沒有匹配上。

部分垂類需要自建自己平臺(tái)的分詞庫(kù),比如電商類的平臺(tái),就可以從品類名稱、地域名稱、品牌名稱、店鋪名稱去搭建一個(gè)基礎(chǔ)庫(kù)。提供一個(gè)思路大家自己去思考,下一步應(yīng)該怎么搞?

2. 詞語處理類

用戶搜索詞千奇百怪,避免不了同一個(gè)搜索結(jié)果,每個(gè)人搜索的詞不相同。但為了保證無論用戶輸入什么搜索詞,都可以變成想要的結(jié)果,這個(gè)時(shí)候就需要同義詞、近義詞、錯(cuò)別字、屏蔽詞來干預(yù)。

1)同義詞

因?yàn)榻Y(jié)果集取并集,所以用戶無論搜索同義詞中的哪個(gè)詞,得到的結(jié)果都是相同的。

同義詞庫(kù)搭建的時(shí)盡量保證詞庫(kù)的真實(shí)、準(zhǔn)確,如果匹配分詞庫(kù)時(shí)有專業(yè)的業(yè)務(wù)部分,最好和業(yè)務(wù)部分確認(rèn)好后再配置。如:剃須刀、刮胡刀,書、圖書,上海九院、上海第九人民醫(yī)院,拖鞋、鞋拖。

2)近義詞

近義詞是兩種詞的定義接近但又不是同一個(gè)東西的時(shí)候,一般配置近義詞。如:生抽、老抽,獼猴桃、奇異果。

有的人認(rèn)為不是一種東西,有的人又非說是一種東西(人的認(rèn)知邊界,此處不接受杠)。所以,近義詞可以完美解決這種情況。排序的時(shí)候優(yōu)先展示搜索詞的結(jié)果集,配置的近義詞在搜索詞結(jié)果展示完后展示;當(dāng)然也可以穿插展示,具體情況具體設(shè)計(jì)。

3)錯(cuò)別字

錯(cuò)別字需要做的是定義主詞和錯(cuò)別字詞,錯(cuò)別字在沒有進(jìn)入搜索引擎的前一步就完成的替換。

錯(cuò)別字情況在搜索引擎中最常見,如:雅詩(shī)蘭黛、雅思蘭黛、雅詩(shī)蘭戴、雅詩(shī)藍(lán)黛。這種情況簡(jiǎn)單點(diǎn)就走同義詞,但對(duì)應(yīng)的搜索詞和搜索域的相似度會(huì)有一定程度的影響,所以錯(cuò)別字還是最有解決方案。

4)屏蔽詞

屏蔽掉一些無關(guān)或者無意義的詞。

如各種奇奇怪怪的標(biāo)點(diǎn)符號(hào)、各種反d反d的詞語等,行業(yè)內(nèi)有很多標(biāo)準(zhǔn)詞庫(kù)。在技術(shù)論壇上查找,不過多介紹。

3. 詞語識(shí)別類

主要還是標(biāo)記一些詞為特殊詞,可以在用戶搜索該類詞的時(shí)候,給出一些特殊樣式的驚喜,就比如搜索“雅詩(shī)蘭黛”,不僅僅展示“雅詩(shī)蘭黛”商品,也可以展示“雅詩(shī)蘭黛”店鋪、“雅詩(shī)蘭黛”活動(dòng)入口等等,給用戶的驚喜也是很大的!

三、識(shí)別意圖并召回內(nèi)容

1. 搜索域:搜索域就是搜索詞匹配相似度的文本

初級(jí)的搜索產(chǎn)品,可能會(huì)覺得所有的信息都放進(jìn)搜索域中就行了。其實(shí)大錯(cuò)特錯(cuò),這樣導(dǎo)致的結(jié)果就是非常不準(zhǔn)確。這個(gè)時(shí)候,搜索產(chǎn)品一定要克制,盡量把重要的字段放在搜索域中,就比如:商品標(biāo)題、品類、標(biāo)簽、sku名稱、sku規(guī)格等。

2.?相似度:搜索詞和搜索域匹配度也叫相似度(偏技術(shù)可略過)

1)分詞方式

如用戶搜索:“你說的確實(shí)在理”。

  • “你說”、“的”、“確實(shí)”、“在理”=1*2+2*1+3*2+4*2=18
  • “你說”、“的確”、“實(shí)”、“在理”=1*2+2*1+3*1+4*2=15
  • “你說”、“的確”、“實(shí)在”、“理”=1*2+2*1+3*2+4*1=14

機(jī)器無法判定那種分詞方式是對(duì),但是數(shù)字可以判斷大小。所以,搜索詞先判定了第一種分詞方式(真正的分詞比這個(gè)還要復(fù)雜,用分詞數(shù)量和分詞位置比較好理解,下幾篇文字會(huì)詳細(xì)講下如何分詞)。

2)匹配方式or和and

or和and無非就是用戶搜索詞和搜索域匹配的結(jié)果集是要部分匹配還是完全匹配,用哪種模式還是比較看行業(yè)的。電商、020建議用and較好,社區(qū)、視頻等內(nèi)容類建議用or較好。

3)文本相似度=余弦相似度

余弦相似度,就是通過一個(gè)向量空間中兩個(gè)向量夾角的余弦值作為衡量?jī)蓚€(gè)個(gè)體之間差異的大小。把1設(shè)為相同,0設(shè)為不同,那么相似度的值就是在0~1之間。余弦相似度的特點(diǎn)是余弦值接近1,夾角趨于0,表明兩個(gè)向量越相似。

看下圖:

比如:{你說 的 確實(shí) 在理}、{你說 的 在理},對(duì)應(yīng)的向量分別是{1,1,1,1}、{1,1,0,1}套入到的公式中,相似度約等于80.4%

PS:但相似度是不準(zhǔn)確的,“你真好看”和“你真難看”相似度75%,但其實(shí)他們一點(diǎn)也不相似。所以,機(jī)器學(xué)習(xí)、語義識(shí)別、神經(jīng)語言等還是需要逐漸搞起來的(小廠謹(jǐn)慎搞)。

四、結(jié)果集排序

1. 業(yè)務(wù)因子排序

基于行業(yè)特性,定義一些業(yè)務(wù)因子來綜合打分行程排序。

基于多維度的分?jǐn)?shù)來定義對(duì)應(yīng)的結(jié)果集,一般可以加一些ctr、單uv價(jià)值、單pv價(jià)值、退款因子、轉(zhuǎn)發(fā)互動(dòng)因子等等。要知道搜索結(jié)果不僅要準(zhǔn)確,還要足夠受歡迎。

2. 人工干預(yù)排序

對(duì)于特定的詞或者類型,給予一些人工干預(yù),保證搜索結(jié)果的準(zhǔn)確性。

3. 個(gè)性化排序

基于用戶標(biāo)簽,在搜索結(jié)果集中加權(quán)值。

比如技術(shù)宅搜索”蘋果“,大概率是想要iphone手機(jī),那吃貨當(dāng)然更希望是水果嘍。

搜索底層路徑基本就這四大節(jié)點(diǎn),底層動(dòng)作圍繞著四個(gè)節(jié)點(diǎn)有很多標(biāo)準(zhǔn)的行業(yè)解決方案,歡迎大家一起聊聊!

 

作者:Hankys;公眾號(hào):老韓帶你侃產(chǎn)品

本文由 @Hankys 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自 Unsplash,基于 CC0 協(xié)議

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 求問樓主,到底什么是搜索域呢?這個(gè)應(yīng)該怎么來用白話的解釋,更方便理解?

    來自北京 回復(fù)
  2. 如果是切詞太泛,導(dǎo)致召回非常多,然后結(jié)果集里的真正跟搜索詞語意匹配的內(nèi)容 因?yàn)槭艿脚判蛞蜃佑绊?,反倒是排序特別后,可以怎么解決呢

    回復(fù)
    1. 大體上靠權(quán)重來解決,相似度權(quán)重和排序因子的權(quán)重??茨闶裁搭愋偷漠a(chǎn)品啊,你要是內(nèi)容類的,當(dāng)前是相似度要求高一些,如果是電商類、020類的,可能排序因子、lbs等權(quán)重高一些。還是要拿出具體的query詞來分析,是哪一聚類的問題,才能定性定量的解決。

      來自遼寧 回復(fù)
  3. 想問下對(duì)搜索結(jié)果集排序一般怎么做呢?給商品打分有很多維度:類目相關(guān)性、標(biāo)題名稱匹配度、還有業(yè)務(wù)人員定義的不同維度的例如商品點(diǎn)擊率復(fù)購(gòu)率下單量毛利率,具體怎么定義打分算法呢以及提供什么樣的工具可以讓人工影響最終的排序呢

    回復(fù)
    1. 影響這個(gè)排序的因素有很多,其實(shí)我一般給分成幾大類:動(dòng)態(tài)分、靜態(tài)分、偏好分,這個(gè)三個(gè)分來綜合權(quán)衡排序邏輯,那怎么來篩選出這個(gè)三個(gè)分的因子分別是什么呢?其實(shí)主要還是看你業(yè)務(wù)現(xiàn)狀,如果你對(duì)搜索相似度要求較高,那就提高動(dòng)態(tài)分,那你對(duì)業(yè)務(wù)數(shù)據(jù)要求比較高,那就提升靜態(tài)分,如:?jiǎn)蝩v價(jià)值、ctr等等。

      來自遼寧 回復(fù)
  4. 分詞庫(kù)是為了能更好的理解用戶的輸入,將用戶的搜索目的和平臺(tái)的商品、服務(wù)匹配。詞庫(kù)的來源錯(cuò)別字這種問題也是靠人工去建設(shè)詞庫(kù)做關(guān)聯(lián)關(guān)系來實(shí)現(xiàn)嗎?

    回復(fù)
    1. 主要還是看你們公司的技術(shù)儲(chǔ)備,如果沒有短語識(shí)別類的算法工程師,這個(gè)只能靠人工去積累,可以讓開發(fā)一個(gè)詞語于詞語相似度腳本跑一下用戶的搜索詞,可以減輕人工的工作量

      來自遼寧 回復(fù)
  5. 分詞庫(kù)是為了能更好的理解用戶的輸入,最終將用戶的搜索目的和平臺(tái)的商品、服務(wù)匹配。

    回復(fù)
    1. 是的,分詞庫(kù)會(huì)作用到用戶搜索詞和平臺(tái)搜索域中,標(biāo)準(zhǔn)專業(yè)的分詞庫(kù)作用很大,階段性更新分詞庫(kù),數(shù)據(jù)也會(huì)隨著變化,建議可以關(guān)注一下數(shù)據(jù)上的變化~

      來自遼寧 回復(fù)
  6. 期待后續(xù)呀 很適合產(chǎn)品人的搜索文。

    回復(fù)