国产欧美精品一区二区三区-老狼,国产香蕉一区二区三区在线视频

搜索

APP

起點課堂會員權益

職業體系課特權

線下行業大會特權

個人IP打造特權

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業技能直播

會員專屬社群

榮耀標識

發布

注冊 | 登錄

電商運營之站內搜索全面指南（五）

王小命兒

2019-08-03

2 評論 10342 瀏覽 42 收藏

10 分鐘

上一章給大家安利了一下搜索結果頁優化的原理，或者叫個人看法。搜索結果頁的引流和轉化。各個模塊的優化運營方式與指標。那么這一章就來好好探討下，站內搜索的流程，用戶的搜索詞是經過怎樣一個流程最后變成呈現在我們面前的搜索結果頁的。

為了便于大家理解，這里還是用一張通俗易懂的流程圖給大家瞧瞧，有個大概的脈絡，我也會依照此脈絡給大家介紹。話不多說，上圖?。榱孙@得不那么有產品味道，通俗易懂，我將其簡化了很多）

一般而言，干劈流程是沒啥味道的，所以我們就帶著例子進去走一遍，差不多就了解了，先聲明一下，我說的不一定對，切勿盲從。

我們先從漢語開始，關鍵詞為“男士的印花T恤”

首先會進入預處理環節，此環節會將該關鍵詞的無用部分進行去除，比如停用詞。其中“的”就是我們要砍掉的部分，其實在預處理階段還會有剔除一些左右兩邊無用的空格等，那么如何確定停用詞呢，在漢語里面任何詞可能都有用，但是在特定的語言環境下，許多的詞組就成為了停用詞，比如淫穢詞，極限敏感詞（參考廣告法）等。

經過預處理環節之后，進入智能糾錯或者人工改寫環節，需要判斷這個關鍵詞是否有錯別字（算法/人工詞庫），是否命中人工改寫的詞庫（暴君功能）。

經過這一環節處理后，進入到語種識別環節，國內電商也是支持英語環境的，此時會對該關鍵詞進行語種識別，確認該詞應該在哪種語言環境里搜索，有的電商是沒有這個環節的，因為確實沒有必要。對于出口型跨境電商而言就顯得很有必要，像速賣通，蝦皮，亞馬遜等。

此時進入詞性還原階段，詞性還原顧名思義，針對英語就是單復數還原，時態還原，詞干提取等，對于漢語而言則是識別其中關鍵詞主干，男士印花T恤（預處理已經把“的”給去掉了），整個詞都是主干。

隨后進入分詞階段，此時分詞系統會對“男士印花T恤”進行分詞，一般而言漢語會進行n-gram多粒度分詞。分詞結果如下：男/士/印/花/t/恤/男士/印花/T恤/男士印花/印花T恤/男士T恤/。

對于上面的ngram不了解的也沒關系，后續專門的算法章節會講到。對于一些音型文字比如英語，法語，印尼語等使用的空格分詞法，就是按照關鍵詞之間的空格比如 “women dress”分詞結果則直接從空格處進行切詞。

為啥和漢語不同呢，其實英語也有多粒度切詞，和漢語的切詞方式都是基于詞典里的詞組合理性進行的，但是漢語與音型語言有著些許區別。

這里延展一下：音型語言與結構形語言在語言含義上有著兩種決然不同的含義容量與精度。即單詞含義容量：單個單詞語言含義表達范圍；精度：單個單詞語言精準描述的范圍值，范圍值越小精度值越高。

結構形語言的起源來自于象形文字，即以物品的形狀來結構文字，排除文學性的表達，基本的文字的表達內容需要多個單詞組成完整精確的意義，單個文字的含義容量廣泛，缺乏精度。

音型語言文字起源于對于字母拼接，較少的字母組合形成字根，用以作為語言延伸的基礎。通過較少的字根來擴展獲得更多的語義詞匯，以此作為層級來拓展詞匯分支。由詞根變化向外擴展，變形越小含義越接近詞根，變形越大含義越遠離詞根

因此得出個假設結論：