微博APP「搜索」功能分析

2 評論 11340 瀏覽 100 收藏 11 分鐘

本文從用戶需求滿足的使用場景出發,進行典型方案拆解、業務邏輯分析,探討搜索功能在功能和策略方面的迭代優化。

一、項目背景

選擇query調研微博搜索功能對用戶需求滿足情況,從以下兩個維度對所選擇query進行分類,

  1. 內容類型維度:社會、影視娛樂、時尚美妝、體育運動、旅游、美食、互聯網、文娛、科普教育、生活記錄;
  2. 需求理解維度:需求明確-結構簡單清晰的query、需求明確-口語化的query、需求明確有額外條件、需求不明確。

因此進行case調研的query如下圖所示:

在微博手機客戶端搜索這些query,記錄得到的結果與相應的問題,匯總case如下圖所示。

由于是手機截圖,粘貼到文章里會比較占地方,所以本文就沒有粘貼本次調研的實際情況截圖,大家感興趣的話可以用微博自己搜一下試試看。

對以上case中,存在問題的case進行分析,如下圖所示。

匯總這些case的問題原因,即需要針對性解決的問題,如下圖所示。

二、項目目標

1. 產品目標

用戶以最低成本獲得需要的信息。

2. 核心指標定義

用戶搜索成功率,即用戶在搜索query后,沒有后續行為(包括更改query,切換tab等),直接獲得需要的結果的概率。

3. 重要指標定義

  • query解析準確率,即query解析準確的概率;
  • 匹配準確率,即第一結果匹配準確的概率;
  • 前10排序準確率,即前10結果排序準確的概率;
  • Query前10結果相關性,即一個query前10條結果與該query相關的概率。

case以上5個指標的滿足情況如下圖所示:

  • 用戶搜索成功率:27.50%;
  • query解析準確率:50.00%;
  • 匹配準確率:40.00%;
  • 前10排序準確率:35.00%;
  • Query前10結果相關性:52.50%。

4. 項目目標

  • 用戶搜索成功率提升至40.00%;
  • Query解析準確率提升至60.00%;
  • 匹配準確率提升至60.00%;
  • 前10排序準確率提升至50.00%;
  • Query前10結果相關性提升至70.00%。

三、需求概述

針對本次項目需要解決的問題,設計相應改進方案,并根據問題影響面&預期可解決影響面與成本,排列解決方案優先級,如下圖所示。

四、需求詳述

1. query解析

(1)改進方案一

方案:query解析增強常用口語詞庫與口語轉義詞庫,提高對query的口語識別能力。

邏輯說明:對口語化query,利用常用口語詞庫找出query中的口語,再利用口語轉義詞庫進行轉義,獲得需求明確的簡要query后再進行切詞工作。

Case舉例:

(2)改進方案二

方案:query解析提高切詞正確性,對長query允許以多種query處理結果進行搜索。

邏輯說明:當用戶輸入較長query時,不僅能夠針對query整體對微博結果進行召回,同時能夠在切詞后,對query進行處理,轉換為多種可能的query,去除query中一些無關緊要的詞,并再次對微博結果進行召回。通過多次召回,在所有結果中,命中匹配相關性最好的微博。

Case舉例:

(3)改進方案三

方案:query解析增強轉義詞庫,提高對query額外條件的識別能力

邏輯說明:用戶輸入的query,在切詞后,能夠通過轉義詞庫,提取出query中的額外條件,在匹配與排序的邏輯中為該標簽增加權重

Case舉例:

(4)改進方案四

方案:query解析增強專有名詞庫,提高對query需求主體識別能力。

邏輯說明:對query切詞后,根據專有名詞庫找出query主體。

Case舉例:

2. 結果匹配

(1)改進方案五

方案:匹配邏輯中,根據搜索query,提高匹配閾值,增加權威性、熱度、時效性、原創性、內容相關性標簽權重

邏輯說明:當用戶搜索query較為復雜或長度較長,同時具有額外條件時,需要提高對召回結果的匹配閾值,過濾相關性較低的微博。

除此之外根據搜索query本身的特性與提取出的額外條件,增加與額外條件對應的權威性、熱度、時效性、原創性等標簽的權重。

Case舉例:

(2)改進方案六

方案:根據搜索query,召回結果中,對數量異常多,熱度異常高等特殊情況導致的達到命中閾值的結果進行異常處理,減少刷量等行為帶來的錯誤匹配命中。

邏輯說明:根據搜索query,召回結果中,當出現某一類型結果微博數量異常多,或某一結果微博熱度異常高,導致輕易突破匹配閾值的情況,需要針對性提高這一類搜索query內容相關性標簽的權重,并將內容相關性作為一個輔助閾值。

綜合閾值突破,然而內容相關性閾值未突破的情況下,對該類召回結果做特殊處理(不匹配,或者折疊,或者去重)。從而減少刷量、刷熱度等行為帶來的錯誤匹配命中。

Case舉例:

3. 結果排序

(1)改進方案七

方案:在用戶的連續搜索行為中,提高排序邏輯中上下文場景之間的關聯性標簽權重以及更新時效,提高連續搜索行為中同一主體的關聯性。

邏輯說明:在用戶具有連續搜索行為時,觸發該邏輯。針對用戶搜索query之間的相關性(例如鹿晗電影、鹿晗),在召回結果匹配時,提高與之前的搜索行為有關聯的標簽權重,并提高這類標簽的更新時效,及時更新。

Case舉例:

4. 結果展示

(1)改進方案八

方案:調整特定詞匯(名詞,范圍如歷史人物、特定名詞)的頁面展示邏輯

邏輯說明:框定部分詞匯范圍(如莎士比亞,名人類;片兒川,風土類),調整該類詞匯搜索結果的頁面展示順序邏輯,優先展示百科信息,并優先展示熱門問答、熱門文章等信息。

Case舉例:

5. 資源分析

(1)改進方案九

方案:提高對站內微博信息的語義分析準確率,優化匹配結果

邏輯說明:通過名詞轉義、口語詞庫與轉義、轉有名詞庫、切詞等手段,提高對站內微博信息的語義分析準確率,優化匹配結果。

Case舉例:

五、統計需求

統計如下指標,對優化需求效果進行評估。

 

本文由 @misbone 原創發布于人人都是產品經理,未經許可,禁止轉載

題圖來自 Unsplash,基于 CC0 協議

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 寫的好好,學習了!

    來自湖北 回復
  2. 為啥要英文單詞

    回復