策略產品經理 | 如何做好效果評估
對產品經理來說,尤其是大公司里的策略產品經理,每一次的策略改進都需要拿出實實在在的證據來說明新策略的效果。有時候,新策略有好的效果,這當然是我們希望看到的,但有時候也會失手。但是無論數據是否好看,你都需要拿出準確可信的數據來說明策略的效果,并根據評估效果做出最終決策,效果優(yōu)則使用,效果劣則改進。而能讓你做出靠譜決策的基礎,就是靠譜的效果評估。
一個靠譜的效果評估,首先要有明確和合理的評估標準,為了給后續(xù)評估相關的工作提供指導,這個標準甚至是在設計策略之前都已經確定了的。評估標準規(guī)定的是我們用哪些維度的數據來體現策略的效果,如果說策略的優(yōu)化是不斷的朝著一個方向前進,那么評估標準就是指引前進方向的路標。正是因為評估標準的路標屬性,所以明確、合理是對評估標準的基本要求。明確是指方向是唯一的,或者有時候是主要方向是唯一的,這個方向,一般也是和策略改進的方向一致的。比如策略產品常見的策略優(yōu)化目標點擊率、使用率、轉化率等等。合理是指評估的數據維度是和策略產品目標高度相關的,如果你的策略優(yōu)化的是列表的展示順序,那你就不能把列表召回的內容質量作為評估標準。
評估標準確定之后,后續(xù)就是貫穿產品策略上線前后的評估過程,主要包括效果預估、離線評估、線上評估三步。
效果預估是產品經理根據項目的性質,借鑒已有的一些數據,在項目還沒有啟動之前做的對策略效果的一個大致評估。比如,我們需要對用戶搜索A類關鍵詞無結果的情況做優(yōu)化,這種詞的搜索比例是10%,而與A類詞相似的B類詞的搜索結果到支付的轉化率是8%,那么策略上線之后影響范圍是10%的搜索次數,再預估A類詞搜索結果到支付的轉化率也是8%,那么理論上,策略上線之后能夠提高10%*8%的轉化率。
從性質我們就可以知道,這種預估是不可能完全準確的,但是,無法準確絕對不是不去做效果預估的借口。效果預估的值是一個策略效果的基準線,它能夠為策略完成上線之后的效果提供一個對比標準,以直觀的說明新策略是否有效,或者更功利的去說,效果預估往往是項目立項的數據支持,甚至會成為你的KPI。
離線評估是策略上線的最后一道檢驗程序,離線評估效果的好壞決定了策略是否有上線策略測試的機會。
離線評估有兩種方式,一種是最原始的人肉檢查,一種是機器評估。
人肉檢查好理解,這就是憑人眼對策略生效場景一個個(Case By Case)的去驗證。以前面說過的搜索策略優(yōu)化的為例,我們拿A類詞去搜索服務上測試,看新的策略下A類詞的搜索結果是否符合我們的預期(判斷如何算達到預期需要一套合理的評估工具,暫且不表),達到預期才算離線評估通過,否則就需要繼續(xù)優(yōu)化。
機器評估的工作原理其實人肉檢查一樣,只是在某些情況下,機器評估能夠覆蓋更多的場景,更能從全局場景下來說明效果好壞。
離線評估通過之后,策略就可以上線測試了。為什么一定要進行線上測試呢?如果離線評估確認策略有效,是不是就可以不經過線上測試呢?不行!因為不論你考慮的有多么全面,不論產品和工程師能力有多么強經驗有多么足,你也不可能完完全全考慮真實環(huán)境的方方面面,總會有你遺漏的地方,所以只有在真實環(huán)境下測試有效的策略,才是真正有效的策略,應該說線上測試是檢驗策略的唯一標準。
效果評估除了驗證策略效果優(yōu)劣之外,還能給深入的策略效果分析、后續(xù)改進提供數據支持,甚至能夠在新策略線上效果的數據中挖掘出新的有價值數據。
評估內容
前面已經提到,效果評估一般有效果預估、離線評估和線上測試三步,這三個評估從需求最開始啟動開始,一直到需求正式上線前結束,就像是流水線上的一系列檢驗程序,保證最終呈現給用戶的是最好的策略。由于這三個評估處于產品設計的不同階段,作用和目的也不盡相同,因而評估方式和評估維度也存在著或大或小的差異。下面將對這三種評估做細致的介紹和分析。
1、效果預估
效果預估最主要的作用是評估一個需求的價值,它往往構成需求文檔的前半部分,它需要說明某個需求在完成之后預計能解決多少問題,帶來多少收益?;蛟S你已經發(fā)現了,往實際了說,我們需要用效果預估來說服你的Leader以及合作伙伴,給自己的產品爭取足夠的資源和支持,如果你恰好是在一個產品經理不那么強勢或者資源緊張的公司,其重要性不言而喻。除了這些比較實際的原因,效果預估能夠讓你對你將要做的事情心里有數,而這個數,會是需求進行中許多重要決策的基礎,比如根據需求各細節(jié)部分重要程度調整需求開發(fā)順序,設定需求進展里程碑,砍掉部分不重要的需求等等。
效果預估很重要,那么如何才能做好需求預估呢?四字總結:合理類比。在需求正式上線前,需求的效果確實是很難確定的,或許你能掌握一些數據,比如舊策略對多少比例的情境無效,或者舊策略壞的程度如何(根據評估標準來確定),但是新策略能多大程度解決問題,只有先知才能知道。這種情況下,擺在我們面前的能夠采用的預估方式也就是拍腦袋和類比,在某些經驗豐富的PM哪里,拍腦袋其實是已經在腦子里進行了類比,但是如果你希望你的需求能夠順利推進的話,我們依然謹慎使用這種方式(雖然幾乎每個人都會或多或少的拍腦袋),拍腦袋的東西實在太沒有說服力了,你不想在Leader和合作伙伴那里留下不靠譜的印象吧?類比是通過和新策略相似的策略在使用情境也相似的情況下的表現,來類比新策略的表現。相似策略在相似情境下的表現數據,一般可以從兩種途徑獲得。一個是自家產品的其他類似策略的效果,比如你要在自家產品上開辟一個新的推薦位置,那么你大概能找到一個類似的位置推薦策略的表現數據,這個數據,就可以用來預估新策略的效果。除了在自家產品上找,你還可以通過某種方式來“竊取”競對相似策略的效果數據。這個數據的獲取看起來很難,但是請相信互聯(lián)網上啥都有;如果互聯(lián)網上沒有,你身邊總有從競對來的同事吧(這個是最有效的);如果這些條件你都沒有,建議你去了解一下社會工程學(好像進入灰色地帶了)。
現在你手里已經有了足夠的類比數據,這表示你已經有了足夠的資本去說服(忽悠)Leader和合作伙伴了。不過最后還是要提醒一下,由于一些你未知的原因,策略上線之后的效果很可能和你的預估存在差異。
2、離線評估
在講離線評估之前,首先要告訴大家的是離線評估并不一定是必需的,如果已經確定了新策略一定會比舊策略效果好,而恰好同時你又必需讓新策略及早上線測試(往往是因為舊策略存在錯誤或者爛到無以復加或者業(yè)務需要),那么離線測試這一步(大概)是可以省略的。不過這里仍然建議大家不要這么做,一個全面的離線評估能夠避免我們將不好的策略推向前臺,避免不必要的用戶體驗或商業(yè)損失。
前面已經介紹了離線評估的兩種方式,人肉檢查和機器檢查。人肉檢查相對費時費力(產品經理的時和力),但卻是最直觀的方式,也是最簡單易達的方式,特別是對一些我們通過Badcase而產生的需求來說,人肉檢查尤其合適。假設我們有一個新策略需求,需求來源是推薦的內容完全不符合用戶的預期,那么最能說明新策略效果的離線評估方式,就是把需求開始前我們整理的Badcase拿出來,一條條的對比在相同情況下新策略的表現。如果我們人肉觀測的這些Badcase已經解決,那就可以認為新策略解決了所有的相似問題,也就是新策略通過了離線評估(這里又要用到評估標準和工具)。而對于一些人肉無法檢測的策略型需求,我們需要借助工程師的力量來進行機器評估。比如一個以點擊轉化率為目標的排序策略優(yōu)化需求。因為轉化率是一個整體的概念,人肉的方式是無法判定策略是否起到了優(yōu)化的作用的,這時候我們只有借助機器來進行評估?;蛟S你不懂怎么使用機器評估,或者沒找到合適自己的工具,給你的工程師新開一個需求吧。
3、線上測試
如果新策略通過了離線評估,那么有很大概率新策略在線上也是有效的,但這仍然是停留在理論上,為了確認新的策略真的有效,你必須把新策略放到真實場景去進行檢驗。如果你是有一些工作經驗的產品經理,一定知道AB測試的概念,你也應該知道AB測試就是用來對比測試產品線上效果的常用方式。AB測試是將產品的不同策略或設計推給不同的用戶,在一個滿足單一變量試驗的情境中來確定新策略或設計的效果。一般來說,所有公司都會有AB測試系統(tǒng)去支持AB測試,這不是什么難事兒。但是AB測試有一些常見的陷阱和誤區(qū),后續(xù)部分詳細介紹。
評估系統(tǒng)搭建和評估方式
前面已經說到,線上評估是檢驗策略的唯一標準,那么為了能夠做好線上評估,我們必須對策略后臺系統(tǒng)進行改造以方便的做好線上測試和數據的搜集。從評估本身、成本和用戶等方面考慮,一個好的評估系統(tǒng)應該具有以下特征:
1.可用的測試數據
策略產品是一個非常細致極度依賴數據的工作,可以說,可用的測試數據就是策略產品工作的基礎,數據可用有兩個方面的含義,一是數據能夠獲得,二是取得的數據是準確的。要獲得可用的測試數據,就必須有可靠的數據統(tǒng)計工具,雖然數據工具和產品本身沒有關系,但是卻是產品持續(xù)改進的基礎系統(tǒng)之一,在大公司,數據工具往往是一個很龐大的部門,這個部門負責設計數據統(tǒng)計框架,提供測試工具以便在各產品線上使用,對小公司來說,可以使用第三方的統(tǒng)計工具來完成這個工作。GA是常使用的第三方數據統(tǒng)計工具,還有我們常見的以某某統(tǒng)計命名的流量統(tǒng)計工具,這類工具會提供一個可調用的JS語句,插入到網頁、App中,再在頁面或app中需要統(tǒng)計的地方加上特殊標記,這樣數據就能夠生產、上報給第三方,然后我們可以在第三方工具后臺查看到數據統(tǒng)計信息。這類工具對業(yè)務單一的小公司來說已經足夠,但是它們往往提供的功能有限,不能夠根據產品統(tǒng)計需要提供個性化的統(tǒng)計方案,所以業(yè)務復雜的大公司會自行搭建自己的統(tǒng)計系統(tǒng)。對策略產品來說,我們必須要選擇一個可靠的統(tǒng)計工具來上報統(tǒng)計我們想要的數據,如果你能夠拿到的統(tǒng)計方式不能夠滿足你的要求,那么你就應該推動數據產品經理幫你解決這個問題,或者親自去解決了。
2.取樣科學
既然我們的數據是用來做統(tǒng)計分析的,那么我們的分析過程就必須遵循一些統(tǒng)計學的基本原則,其中最重要的就是取樣科學。在互聯(lián)網產品中,我們最熟悉的就是測試方式就是AB測試,將不同的策略按照一定的比例放到真實場景中,一個作為對照組一個作為實驗組,再把不同策略的數據拿出來分析兩個策略的優(yōu)劣。但是大家往往忽視了一個科學實驗的基本問題,而這個問題決定了測試是否是可信的,那就是AB測試的A和B是不是真的單一變量。比如我見過有產品分iPhone和Android平臺做AB測試,也見過分業(yè)務區(qū)域(比如O2O產品中的北京和上海)做AB測試的,這類測試表面上是做了對比,實際上對照組和實驗組連可對比性都沒有。在確認iPhone和Android用戶行為一致前,這種AB測試的愚蠢程度就好比生物試驗中讓驢做實驗組讓馬做對照組。其實,即使確認了iPhone和Android用戶行為“一致”,我也不建議采用這種方式做AB測試,因為你所確認的行為“一致”,只是你觀測到的那部分一致,而你是不可能知道全部的情況的。
前面說到了一些不好的AB測試方案,下面給大家說說什么是好的AB測試方案。做過實驗的人都知道,前面所提的單一變量是做對照實驗的基本原則,在產品策略的評估中,我們首先應該保證策略的不同是A和B的單一變量,簡單的說,我們應該讓我們AB方案的區(qū)分是盡量隨機的。說到盡量隨機,最直接的當然是每一次策略的調用都使用隨機方式,確實它能夠做到盡量隨機,但是違背了下面要講的第三條原則(后續(xù)詳細介紹),所以一般情況下不適用這種方式。這里給大家介紹一種移動互聯(lián)網情況下的比較合理的AB測試方案,根據設備標識符為每個設備生成唯一的數字識別符,然后取某一位的數字作為AB分配的基礎,這種方式首先能夠盡量的保證隨機,而且能夠分配AB方案的流量比例,比如0-1的使用A策略,2-9的使用B策略,那么A策略的線上流量就大概在20%左右。一般來說,這個方案能夠解決大部分移動產品AB測試取樣科學的問題,但是不能排除在某些特殊的情況下,還是需要產品經理們開動腦筋,設計出合適自己產品的AB測試分配方案。
事實上,如果你對自己的AB測試分配方案沒有信心,你還可以用AA測試的辦法去評估分配方案的合理性。AA測試是指認為將流量標記分為對照組流量和實驗組,但是兩組流量都使用相同的策略,如果在這種情況下兩組流量的目標表現沒有顯著差異,則可以認為對照組和實驗組的取樣是隨機的,符合統(tǒng)計要求的。否則,說明對照組和實驗組樣本上本身就存在差異,基于這種AB分組方式的AB測試是不可信的。
3.對用戶打擾少
每一次策略的變更,都會帶來展示的差異,雖然對策略性產品來說,這種差異是很難察覺的(比如排序的細微變化),但是我們畢竟是產品經理,減少對用戶的打擾是我們必須要考慮的事情。在前面介紹科學取樣時,我們介紹一種最符合隨機要求的AB測試方法,那就是每一次策略調用層面上隨機,我們已經說了這種方式不夠好,原因在于它有一個很大的弊端,那就是你不能保證每個用戶看到的策略是固定的。如果使用這種方式,那么用戶每刷新一次,都有可能看到和上一次不一樣的展示策略。想象一下,如果你刷新一次就看到一個跳動的列表,你會不會罵產品經理呢?前面介紹的設備層面的隨機方式,就很大層面上解決了這個問題,這也是我們認為它相對合理的原因。順便一提,前面介紹的分業(yè)務區(qū)域AB測試的方案同樣存在打擾用戶的問題。所以我們在設計評估測試系統(tǒng)的時候,應該考慮每一次策略優(yōu)化的測試不要過多的給用戶造成困擾。這方面的內容很難窮舉,每個不同的產品都會有不同的打擾用戶的問題,但是只要我們不忘初心及早考慮,這個問題是可以很大程度上避免的。
4.靈活迭代
作為策略產品經理,我們應該有一個最基本的常識:策略優(yōu)化是一個持續(xù)的過程。它永遠沒有終點,就是像Google這樣的公司,依然在不斷的迭代更新搜索引擎算法??紤]到策略的優(yōu)化是一個持續(xù)的過程,那么線上測試也會是一個持續(xù)不斷的過程。認識到這點,那么將測試評估系統(tǒng)設計的方便迭代就是顯而易見的事情。工欲善其事,必先利其器,一個方便迭代測試的系統(tǒng),能夠很大程度上節(jié)省工程師的時間,讓工程師不在陷于無盡的無意義的測試開發(fā),這對團隊士氣和工作效率的提升都是很大的幫助。針對這個問題,通常的處理方式搭建一個能夠后臺配置實時生效的后臺,當需要進行測試或者進行策略切換的時候,能夠方便快速的通過后臺配置完成。如果更近一步,能夠和流量分配功能結合在一起,那將是一個極佳的方案。
評估工具
如果你已經有了用于分析的數據,下一個擺在你面前的問題會是如何去分析?數據分析是策略產品經理必須具備的基本能力,掌握一些常見的策略產品分析工具和方法也是策略產品經理的必修課。對于一些常見通用的分析方式,在“產品經理應該了解的搜索排序評估方法”已經做了介紹。
評估不是目的
策略優(yōu)化是一個持續(xù)的過程,策略產品經理的存在就是讓策略越來越有效,某一次的策略優(yōu)化不是我們的終點(雖然這將是你的KPI),效果評估也不是我們的目的。最理想的情況當然是我們每一次的優(yōu)化都是有效的,但是往往事情并不會如此,這時候我們除了嘆氣之外,其實可以做的事情還很多。很多時候成功的原因很難找,但是失敗的原因找起來卻容易的多,當我們發(fā)現沒有取得期望的效果的時候,那一定某個地方出了差錯,如果我們深入挖掘測試數據中的內容,或許能挖到真的寶石。比如鄙人某一次信心滿滿的上了一個新策略,結果發(fā)現完全沒有效果,在沮喪之下,我將場景做了拆分,發(fā)現這個策略在某些場景下是正面效果在某些場景下是負面效果,而這兩個場景在整個策略使用場景中占比剛好是差不多都是50%。如果你已經做了足夠的數據分析,所有的證據的都表明策略是無效的,而且也沒有什么有價值的東西值得挖掘,那也不要氣餒,它就是無效,這很正常。不過這時候你還有要做的事情,回顧分析上線前的那些分析哪里出了問題,以及,你要告訴所有人,這個策略可能是無效的,請大家謹慎嘗試。
本文系作者@metalony (微信公眾號:hihipm)授權發(fā)布于人人都是產品經理 ,未經許可,不得轉載。
感謝作者 ~ ??