策略產品如何進行效果評估?

2 評論 16616 瀏覽 132 收藏 18 分鐘

本文以“策略產品如何進行效果評估”為討論對象,認為可以在不同階段,結合用戶反饋、埋點、AB測等方法進行評估。

新人產品經理要切記從“定性思維”轉變到“定量思維”。特別是策略產品,要在整個產品生命周期里進行實時的數據監控。

那么一個新策略要怎么進行效果的預測和評估呢,以下是我的一些思考感悟,希望能幫助到大家。

一、策略是如何誕生的

在說策略衡量指標之前我們要先了解策略是如何誕生的?策略具有以下四個要素:

  1. 待解決問題:即我們進行這個策略的最本質的目的
  2. 輸入:即我們通過考慮不同場景下的不同用戶的感受和訴求,得到的一系列影響策略制定的因素
  3. 計算邏輯:也就是我們如何將這些因素利用起來,并且賦給他們合適的權重和計算規則
  4. 輸出:即問題的具體解決方案

下面可以以一個例子具體說明四要素的具體應用:

feed流智能推薦策略

1. 待解決問題:針對不同的用戶提供更為恰當、更感興趣的信息推薦。

2. 輸入:

  • 用戶特征,可能包括用戶的性別、年齡、搜索過的內容、觀看的時長、點贊收藏了哪些信息等。
  • 信息標簽,如信息包括的關鍵字、當今熱度的匹配情況(比如明星結婚離婚總引領信息熱點)。

3. 計算邏輯:通過對這個不同輸入賦予不同的權重,設置一個多因素的公式最終得到用戶喜愛度這種量化的指標。

4. 輸出

二、建立衡量指標的意義

通過對四要素的理解,我們可以將建立衡量指標的意義抽象為以下幾點:

  1. 待解決問題:明確“待解決問題”的聚焦和定位是否準確
  2. 輸入:檢驗輸入的多因素是否充足并恰當
  3. 計算邏輯:檢驗賦值權重是否合適
  4. 輸出:明確此策略是否有效的解決了問題,以及解決問題的占比

三、建立衡量指標

策略產品有別于和端接觸密切的用戶產品,其主要目的是提高性能,提升準確率,所以端上的感知和反饋就未必有其他類型產品顯著,因此建立更為準確的衡量指標更顯得尤為重要。

1. 小數據,代表性的case分析——CPO投訴、用戶反饋+case分析

(1)<CPO投訴>

CPO投訴主要是用戶對產品體驗萌生不滿情緒,通過網站或進線客服等方式對產品做出投訴。

CPO投訴的特征是以負面反饋為主,樣本量小,重要性高。我們在進行策略優化和迭代時,主要目的是在保證滿足用戶基本需求的基礎上(即能用,好用)增加個性化體驗(即好用)。而CPO反映給我們的通常是一些Badcase,即產品連用戶基本需求都滿足不了,所以是需要我們著重注意的。

優點:對Badcase的定位和分析可以幫助我們迅速定位到策略的不足之處,進而快速止損。

缺點:

  1. 由于客服同學對策略的了解不夠仔細,且用戶的表述也一般不會非常明確,會導致用戶的實際反饋和case對應困難,大量的投訴實際上并沒用于最終的分析;
  2. 可以和case關聯的投訴也可能由于客服同學的不了解無法定位到具體原因導致還需要花費大量的時間進行case的中轉;
  3. 由于樣本量小,我們無法準確衡量這類問題的占比。

例子:

比如司機在開網約車的時候發現導航存在繞路現象被乘客舉報,打電話給平臺投訴,希望平臺給予賠償。可能你認為查一下歷史log,如果是我們的問題就給予賠償,并從中發現優化點就OK了。

而真實的情況可能是這樣的:

  1. 大部分司機無法提供準確的時間和位置,這會導致司機投訴的情況和case難以對應。
  2. 即使case對應上了,客服同學可能簡單的認為導航繞路是路線規劃的問題進而中轉給規劃的pm同學,但實際的問題是由于司機點定位的漂移,所以case浪費了規劃同學的人力,還要再進行中轉,導致case分析的周期長。
  3. 等到中轉到恰當同學那里log已經過期了,什么都查不到。
  4. 就算log沒過期,我們最后查明了原因給予了司機賠償,但是司機等待時間長,用戶滿意度跌倒谷底,認為我們的客服機制拖延時間,沒有效率。

改進方向:

  1. 加強的用戶的引導,用戶進線時提供更準確和詳細的信息,幫助case定位。
  2. 加強客服培訓同學的學習,幫助case可以快速的流轉到對應的產品同學名下。

(2)<用戶反饋>

用戶反饋主要通過調查問卷、用戶調研等形式開展。和CPO投訴不同,用戶反饋的互動性更強,更能得到不同用戶的特征感受,且用戶反饋傳遞的是正面和負面的信息兼而有之,其樣本量也比CPO投訴要大。

優點:強互動性,通過和不同群體用戶的對話可以幫助發現他們不同的訴求,便于我們完善輸入指標和規則,也可以幫助明確我們解決問題的定位是否準確。

缺點:

  1. 雖然樣本量比CPO投訴高,但還是不具有代表性;
  2. 需要的時間花費、人力成本非常大;
  3. 有時用戶的感知和他們的行為是相悖的,所以輸出結果的準確性也不高;
  4. 另外也會存在和case對應不上的情況。

例子:

我們想衡量一個feed流智能推薦新算法是否好用,于是邀請了小張來做用戶調研。

小張的用戶畫像是一個在互聯網公司的軟件工程師,平時的愛好是在休息時間看看NBA,小張抱怨feed流每天給他推薦的都是女友喜歡看的吃播,他懷疑是由于女友有時候用他手機看吃播造成的。

這時我們的產品經理可能就認為是歷史觀看賦的權重太大且粗糙了,要給短時長內的歷史觀看視頻賦予給小的權重,于是回去修修改改了好久。

但實際上可能這個策略的賦權是沒有問題的,每天推給小張的也是大量的體育新聞,只是偶爾有一個吃播推送,但是在不喜歡吃播的小張眼里這條推送就顯得無比“耀眼”,所以給出了錯誤的反饋。

改進點:

  1. 在進行調查問卷設計時要盡量使用明確的問題和答案,減少用戶主觀感性上帶來的偏差。
  2. 有意識的建立“用戶反饋群”、“愛好者群”這類人群集合,引導他們在使用中進行有意識的觀察,但是這種有意識以及特定群體可能又會使得樣本的隨機性被破壞,所以對此也要進行恰當的權衡。

(3)<Case分析>

case分析實際上是這上述兩者發揮作用的最重要的一部分,也是在策略迭代中要不斷進行的一個工作,下面舉個例子來說明case分析是如何幫助我們進行指標的衡量的

例子:

還是用feed流智能推薦距舉例:

48歲的趙叔叔抱怨每天給她推送的都是哪個明星又結婚了離婚了,這是他的愛人黃阿姨喜歡看的東西,但是他根本不知道這些明星是誰,他只是想看看新聞。

我們通過case分析,發現給信息標簽中熱度匹配情況賦予的值太高了,但是貿然的賦值低也不太好,于是我們考慮到通過人群標簽來指導熱度匹配情況的賦值,比如年輕人可能更喜歡明星八卦,就可以盡量賦值高些。年齡稍微大些的人呢,可能對此不太感興趣,就可以賦值低一點。女生可能更喜歡女團,就可以賦值高一些;男生更喜歡籃球,就可以盡量將體育類賦值高些。

通過上述例子我們可以看出,case分析會幫助我們更為準確的分析多因素,并且將其粒度變得更細,面對不同場景下不同用戶賦予更為準確的權重,得到更為準確的計算規則。

2. 大數據,統計性的指標分析——埋點統計、AB測試+階段性放量

(1)<埋點統計>

埋點就是指在開發過程中,RD小哥哥寫在代碼里的一些“感知器”,我們會給埋點設置一定的觸發時機(比如命中了XXX策略,點擊了XXX按鈕),和搜集數據屬性(比如用戶id,觸發時間等)。于是這些埋點便可以在我們設定的時機將我們希望其上傳過來的數據以log的形式源源不斷的發送過來。

在我們進行指標選取時首先要明確我們需求解決的問題,優化的點是哪?這個問題回答的越小而具體,指標就會建立的越明確,以下是兩個例子:

例子一:

背景:車輛在行駛過程中偏離規劃道路這一情況被稱為“偏航”,假設我們這個新策略是為了讓導航更快的感知到車輛的偏航。

指標:我們可以將指標量化為【偏航識別距離】和【偏航識別時間】。

觸發/結束時機:這個結果是瞬時的,需要在每次偏航時提供給我(即進行一次記錄)。

例子二:

背景:我們設定了新策略是讓視頻智能推薦變得更準確。

指標:我們可以將指標量化為【用戶點擊首頁視頻的次數】和【用戶點擊視頻后觀看的時長】等等。

觸發/結束時機:這是一個持續性的事件我期望設置的事件開始是【用戶首次進入app】和【用戶返回主頁】,那么事件的結束是【用戶退出app】和【用戶切入后臺】和【用戶在搜索欄進行搜索】和【用戶進行手動刷新】等。

所以總結來看如何設置一個埋點只需要回答兩個問題,即我想在什么時間獲取到信息?以及我想獲取的信息是什么?

埋點的設置可以參考以下表格:

我們可以總結埋點的優缺點。

優點:不必擔心樣本量和準確性,數據是不會騙人的;便于分析case的占比情況。

缺點:

  1. 開發成本比較大
  2. 大量的數據才有統計意義,但是在新策略上線階段,直接給予很高的流量是有很大風險的,所以其應用時段有限制。
  3. 和用戶的互動性差,僅通過埋點難以定位到用戶的具體訴求和他們的感受。

改進點:埋點的主要問題是和端的互動性差,可以將埋點分析和用戶調查、case分析等結合起來。

(2)<AB測試>

AB是PM在進行策略效果衡量時一種常用的手段,簡單來說就是為同一個目標制定兩種解決方案(一般為新策略和舊策略),通過用戶的使用情況,數據呈現來分析哪個策略是更優的。

一般可以選擇幾個實驗城市進行AB測的放量,即保證了樣本量是足以消除掉個體差異和其他因素干擾的,也可以有效控制流量保證風險的可控性。

AB實驗示例:

1. 城市選擇:一般選擇特征和該策略待優化點一致的無其他實驗的城市。

2. 分組依據:為了保證流量的獨立性,即A組和B組沒有交集,一般選用手機倒數第二位來進行AB分組。

3. 時間選擇:且為了避免假期或者不同工作日影響,一般AA階段和AB階段都要在一周及以上,避開節假日(春節、端午等,不指周六日)。

  • AA階段:即兩樣本策略完全相同,通過數據對比和顯著性分析來驗證其隨機性。
  • AB階段:即兩樣本只有實驗策略不同,通過數據對比(可從平均值、相對差值、絕對差值幾個維度)和顯著性分析(即p值<0.05認為顯著)來衡量收益情況。

優點:AB測可以很好的解決樣本量的問題,通過數據的對比和數據顯著性檢驗來準確衡量策略的收益。

缺點:

  1. 無法做到完全隨機;
  2. 實驗的周期長,AB實驗兩階段完成至少需要兩周;
  3. 新策略可能具有嘗鮮效應,導致收益不能準確衡量(這一點在CPO投訴、用戶反饋中也有體現)。

改進點:可以利用<分片AB實驗>的方式加強樣本的隨機性。即一定時間內實驗城市所有流量都用A策略,經過一段時間后翻轉所有流量都用B策略,經過不斷的翻轉來實現AB的切換,在進行數據統計的時候不是根據AB組進行,而是根據AB事件進行。

(3)<階段性放量>

階段性放量實際上并不是一種策略收益衡量方式,而是為了保證策略上線穩定性而進行的一種灰度放量模式。在進行階段性放量時pm要時時進行埋點數據的監控,并依次進行放量計劃的調整或者叫停。

衡量指標在不同階段的應用

總的來看策略性產品效果衡量是以【埋點統計】為主,【用戶主觀感受】為輔,因為其主要面向提升產品性能,提高準確性,雖說最本質的目的是為了提升用戶體驗,但是端上感知并不一定明顯,所以如果過于依賴用戶主觀感受的話可能會導致結果不準確。

而埋點統計是大數據下的產物,也就是說只有在需求上線且樣本量多的情況才能反映出其準確性,有效的消除掉個體的影響和其他因素的干擾,但是新需求上來就全量或者大面積放量肯定是不行的,所以在不同的階段下進行的效果衡量和評估是不同的。

階段一:未上線——通過離線數據集進行的埋點統計

以我實習過的偏航為例,在上線一個新策略之前一般RD會在離線數據集上進行新策略的“試用”,即通過一些歷史軌跡進行回放觀察其在新策略上的表現,如果這個表現是正向且符合預期的,一般才會正式上線。

階段二:小流量上線——AB測進行數據比較+用戶反饋

離線階段認為此策略可以上線后,一般還是會保守的先上線一部分用戶(一般是用戶反饋體驗群、產品組里的用戶)和實驗城市,通過搜集他們的主觀感受和實驗城市的AB組數據衡量一定流量下新策略的表現并進行下一步放量計劃的制定。

階段三:隨機放量——埋點數據為主,用戶反饋為輔

在此階段一般會制定相關的放量計劃,這時的流量一般就比較大了,用戶的埋點數據也更為真實可信,所以以埋點數據為主,進行實施的監控,直到全量。

 

本文由 @Crystal 原創發布于人人都是產品經理。未經許可,禁止轉載

題圖來自 Unplash,基于 CC0 協議

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 不好意思請問一下,我對階段一的理解是:在后臺已有的用戶數據內添加新的埋點,再觀測這些新增埋點給出的新信息是否符合期望。這個理解是正確的嗎?

    回復
  2. 寫的很好,案例舉得生動形象,通俗易懂

    來自北京 回復