如何搭建一個case評測流程(二)

2 評論 4537 瀏覽 14 收藏 8 分鐘

編輯導語:上篇作者說到了case評測標準,本篇文章就可以正式開始進行case評測,本篇將以搜索為例具體講一下搜索是怎么進行case評測的,我們一起來看一下。

一、誰來參與

通常在搜索團隊內部,會把這個事情定義為“搜索用戶滿意度評測項目”,以便更好的進行組織和推進。

立項之后需要定義項目的參與方,“搜索滿意度評測”一般包含這幾個角色:項目負責人、產品經理,算法工程師,開發工程師;他們的分工不一樣。

  • 項目負責人:主要負責整個評測項目的時間計劃制定,溝通機制建立,評測意見統一以及評測過程中遇到的問題處理;
  • 產品經理:負責具體case的測評,評測報告的撰寫以及評測標準修訂建議收集;
  • 算法工程師:負責具體case的評測,case歸因分析;
  • 開發工程師:負責具體case的評測,一般參與較少;

這里簡單解釋一下算法工程師和開發工程師,有的團隊可能不會進行區分,統一稱之為工程師;有的會做區分,算法工程師主要是負責人策略中算法、模型的開發;開發工程師則主要負責工程段的開發,通常指的是后端、服務端。

另外,搜索滿意度評測項目的實施周期可以按照搜索迭代計劃的快慢進行靈活設置。

在迭代較快的情況下,測評的頻率也會相應加快,我見過一些團隊一周一次;如果迭代較慢,或者優化項目周期跨度較長,可以適當把測評周期拉長,我們之前做的是2個月一次。

二、case抽樣

case抽樣是指提取評測案例,一般是由工程師通過sql在搜索日志中取數。

對于搜索來說,一個case最基本需要包括用戶id,搜索關鍵詞和搜索結果;隨著業務的不同需要抽取的數據不同,比如在美團還需要抽取搜索時間、搜索地點等。

對樣本的要求一般包括如下幾方面:

  • 時間上一般選擇測評周期內的最后一周,這個時候相關的優化策略基本上都生效;
  • case的數量按照項目參與人員的多少來確定,人均100個左右;
  • 對于中臺搜索通常會服務于若干條業務線,因此需要控制好不同業務之間的case數量比例;
  • 總體的抽取規則采用隨機抽取的方式,保證測評結果的可信度;

需要注意的是,隨機抽出的case很多時候都是無效case,比如:無關鍵詞、關鍵詞是特殊字符等等;但是只有基于有效case來進行評測,這樣結果才可信,所以還需要對抽樣結果進行過濾,一般抽樣的時候會比計劃評測case數量要多一些。

三、case測評

case評測是指評測人員對抽樣后的case質量進行評估的一個過程,就類似閱卷,需要給每一份試卷進行打分。

為了操作方便,在大型企業,一般都會自建case測評平臺,大家可以理解為這是一個case評測人員的協作平臺;它主要提供的功能就是對case進行分配、篩選、查看、打分(分級);若為badcase需要選擇原因,以及填寫備注。

注意這里的打分并不是按照評測人員的主觀判斷進行打分,而是會提前制定一個算法,算法大概的思路就是不同的badcase結果有不同的分數和權重,根據評測人員選擇的原因分類自動進行分數計算。

比如:評測人員選擇badcase原因是無關商品排序靠前,記為0分;若是低相關商品排序靠前,則為3分——通俗理解,就是badcase越嚴重,得分越低,也意味著對用戶體驗傷害越大。

case的評測最重要的前提就是需要定一個評測的標準,關于標準的制定見:如何搭建一個case評測流程(一) ;這里大家要注意的是,標準不是一成不變的,每一次評測都是一次優化、完善標準的機會。

四、冗余評測

大多數團隊在進行了評測之后就開始進行數據統計,看看goodcase有多少、badcase有多少,然后基于這兩個數據計算當前評估周期的滿意度。

搜索滿意度的計算方式為:

goodcase/(goodcase+badcase)*100%

這里無論是goodcase,還是badcase,都是指的有效的case。

由于評測的標準是人工制定的,因此經常出現一些標準沒有覆蓋的case,以及大家理解不一致的地方,因此這個時候就需要加一個冗余case評測環節。

冗余評測就是對評測過程中有意見分歧的case進行項目組成員集體評測,最終做出決策。

顯然冗余評測的目的除了能夠保證滿意度結果的公正,更為重要的一環是基于大家對badcase的不同理解,去完善評測標準。

評測標準可以說是滿意度評測的根本,只有標準制定的好,才能產出一個客觀的滿意度結果。我微信后臺放了一個評測標準的模板,大家可以輸入模板來獲取。

五、case歸因

case評測的直接目標是衡量搜索的滿意度,但是根本目標還是通過badcase明確、指導搜索策略優化。

因此,當case評測進行了bad和good判定之后,最后一個環節就是case歸因。

簡單來說,就是分析造成每一個badcase的原因是什么?

一般來講對于搜索badcase,包含下面幾類:

  1. 詞典問題
  2. 查詢分析問題
  3. 召回問題
  4. 排序問題
  5. 前端問題

這一塊下一篇再詳細講解。

#專欄作家#

夏唬人,微信公眾號:夏唬人,人人都是產品經理專欄作家,2019年年度作者?!恫呗援a品經理:數據賦能業務》作者。某廠策略產品經理,關注推薦、搜索、AI策略方向。

本文原創發布于人人都是產品經理,未經許可,禁止轉載。

題圖來自 Unsplash,基于 CC0 協議。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 兩篇文章內容一樣啊大佬

    來自安徽 回復
    1. 是啊,這是怎么回事

      來自北京 回復