以抖音為案例,講清楚“用戶增長實驗”在做什么
你是否知道什么是用戶增長實驗?你又了解用戶增長實驗究竟是在做什么?它如何產(chǎn)生作用的呢?針對這些疑惑,筆者將以抖音為案例,聊聊用戶增長實驗在做什么。
摘要:之前簡單介紹過用戶增長(UG)核心工作流:分析數(shù)據(jù)→形成假設(shè)→實驗驗證,大致描述了每一步在做些什么?,F(xiàn)在用一個大家可能注意到過的案例,來嘗試逆推和重現(xiàn)相關(guān)的工作場景,爭取講清楚UG實驗在做什么。
案例簡介:在刷抖音時部分用戶可能會留意到,完成2次播放后分享按鈕變成了自己的好友頭像,而部分用戶依然是常規(guī)的分享圖標。
對了,這就是一個簡單的UG實驗。實驗涉及到的環(huán)節(jié)是類似的,我們不妨拿這個例子來做代表,主要講:
- 為什么要做這個實驗;
- 實驗的設(shè)計和下發(fā);
- 實驗分析;
- 實驗價值提煉。
案例重點講每一步應該做什么,具體數(shù)值是杜撰的且并不重要,如有雷同純屬巧合。
圖1實驗組和對照組的用戶界面
1 為什么要做這個實驗
這個案例我只是借用,下面的表述主要從旁觀角度去做逆推和重現(xiàn)。
1.1 首先關(guān)注策略目標
抖音為什么要下發(fā)這個策略?不難看出,直接目的是提升用戶點擊分享按鈕的比例(分享率)。用最常分享的「好友頭像」替換「分享按鈕」是否能提升分享率,需要實驗來驗證。
1.2 提升分享率的目的是什么
曾經(jīng)了解過一些經(jīng)驗:用戶群的互動率(轉(zhuǎn)評贊的用戶占比)與其留存率很好的正相關(guān)。
從產(chǎn)品邏輯上很好理解:用戶有互動,就會收到反饋,持續(xù)互動會產(chǎn)生粘性。假想你的微信好友很少,沒有收到信息,你還會經(jīng)常打開嗎?假設(shè)你每次發(fā)朋友圈,沒人點贊評論,勢必會大大削弱發(fā)圈的積極性。
所以,抖音這么做,更進一步的目標應該是提升用戶留存,而留存和用戶規(guī)模又高度相關(guān),策略的最終目標應該還是提升DAU、時長、收入這些規(guī)模數(shù)據(jù)。
這些都是前期分析數(shù)據(jù)的關(guān)鍵產(chǎn)出,而「提升分享率能夠提升DAU和時長」是一個假設(shè),需要實驗驗證。
小結(jié)
這個實驗雖小,但是它背后關(guān)聯(lián)到最核心的增長目標。實驗效果的評估,我們也需要關(guān)注到這些「結(jié)果指標」,而不僅僅是分享按鈕的點擊率、分享完成率、分享的回流率等等「過程指標」。
2 實驗的設(shè)計和下發(fā)
2.1 實驗的設(shè)計
我們通常會使用隨機對照實驗,市面上大家基本上用AB實驗來代指隨機對照實驗。通過對比實驗組和對照組的指標差異,來驗證下發(fā)不同策略的兩組間,是否產(chǎn)生了顯著差異。隨機對照實驗最核心的兩個要點是「隨機分組」和「單一變量」:隨機分組,目的是保證實驗組和對照組用戶組成、特點一致,可以進行對比,確保差異來自策略差異而非用戶群差異;單一變量,目的是方便將實驗結(jié)果的差異準確地歸因到某個策略差異上。
2.2 實驗的下發(fā)
如何實現(xiàn)隨機分組呢?
通常將用戶ID(通常是在用戶首次使用app時自動生成的一個字符串)經(jīng)過一些隨機算法(常用hash算法)的處理,理論上保證用戶的特征與隨機算法處理后的用戶ID不存在依賴關(guān)系,最后依據(jù)處理后ID進行分組。即便如此,分組的充分隨機,依然是一個行業(yè)難題,所以會通過實驗前的空跑期或叫AA實驗來確認不同組間在實驗前是否無偏差。
這個案例只關(guān)心到隨機分組,假設(shè)我們隨機從大盤活躍用戶中取了一部分人群,再隨機分為實驗組和對照組,就可以開始實驗了。
表1實驗組和對照組的流量分配
實際工作中,往往會碰到流量少,而同時需要做的實驗多,這就需要引入正交分層。分層的目的在于形成一系列互不干擾的「平行宇宙」,便于在流量不足時,同時進行很多實驗。但是,正交分層有適用條件,我們后面單獨開一篇來講正交分層有哪些要點和坑。
這個案例沒這么復雜,只需要將實驗組下發(fā)「分享按鈕替換為朋友圈頭像」的指令,而對照組下發(fā)「保持原狀」的指令(注意:這對照組不是「不下發(fā)指令」,因為這樣可能會涉及到SRM問題,同樣,容我后面單獨拿一篇來介紹)。實際工作中,還會碰到多個實驗變量,如果需要評估每一個變量的影響,就需要確保存在「僅有一個變量差異」的兩個實驗組。
3 實驗分析
3.1 看哪些指標
回歸到實驗目的,我們直接關(guān)注分享率的提升,進一步關(guān)注用戶留存率的提升,最后想看到對用戶DAU、時長等是否有提升。那我們需要關(guān)注的指標就有:
表2實驗組和對照組的觀測指標,數(shù)值均為杜撰
3.2 實驗結(jié)果可信嗎
判斷實驗結(jié)果是否可信,涉及到一個「顯著性」的概念,即實驗組和對照組的指標差異是不是能滿足統(tǒng)計顯著性。統(tǒng)計顯著性,意味著我們看到的提升,并不是因為隨機波動造成,而是策略影響的。評估顯著性,通常用表2中的P-value、統(tǒng)計功效等來說明,完善的實驗平臺,可以直接輸出差異是否顯著的結(jié)論。如果對顯著性感興趣,建議大家找一本統(tǒng)計學的書詳細了解。
參照表2中的數(shù)據(jù),基本上可以說明該策略能夠顯著提升分享率、次留、DAU和時長。
3.3 選多少樣本量合適
直觀的認識:樣本量足夠大時,即使很小的差異也可能是置信的;而樣本量太小時,即使比較大的差異,也可能是不置信的。只要分組充分的隨機,樣本量大更可能得到置信的結(jié)果,但是受限于各方面的成本考量,我們往往需要評估選擇多少樣本量。
這里就涉及到一個「最小樣本量」的問題:通過對實驗差異的預估,推算出每一組用最少用多少樣本量才能確保實驗結(jié)果差異是置信的,而不是隨機的誤差。相關(guān)的,還會涉及到一個「實驗時長」的問題,簡單來說,實驗時長=最小樣本量/每日流量。
3.4 想長期觀察這個效果,應該怎么辦
UI修改帶來的點擊提升,通常可能是新奇效應,所以我們的實驗盡量拉長至兩個以上的用戶活躍周期。比如某些用戶是周末刷短視頻,周中很少刷,使用頻次的一個完整的活躍周期就是一周。新奇效應通常最多持續(xù)一個活躍周期,我們選擇觀察兩個活躍周期,大概率能看到用戶回歸常態(tài)下的最終提升量。當然,如果有必要,我們也可以保持這兩個實驗組和對照組長期有效,看更長久的影響。
4 實驗價值提煉
實驗完成后,我們通??梢允盏胶芏嘟Y(jié)果,如果不做及時的復盤,這些數(shù)據(jù)的價值很可能只是冰山一角。這一部分,我跳出本篇的抖音案例來說。
4.1 及時復盤
及時復盤幫助我們盡早的知道策略是否有效,甚至盡早反推實驗是不是設(shè)計合理。
假設(shè)實驗差異置信,這個策略的整體效果對總體業(yè)務有價值嗎?
通常用戶量足夠大時,很小的指標提升也是置信的,但實際上可能對增長目標幫助不大。我們需要橫向來對比不同策略,對同一指標的提升效果,決定哪一個更好。
假設(shè)實驗差異不置信,增長策略從下發(fā)到生效是一個「鏈條」,在哪個節(jié)點斷掉了?為什么?及時復盤能夠盡快明確是策略沒成功下發(fā),還是策略無效果。
4.2 下鉆分析
很多時候我們初看數(shù)據(jù)會得到實驗差異不顯著,效果提升不明顯的結(jié)果。但是這不妨礙我們?nèi)プ鲞M一步的挖掘:哪些人群更有效、哪些人群沒有效果,可通過實驗下鉆得到初步答案,再針對有效人群設(shè)計新的實驗去重復驗證,針對無效人群做進一步的分析,進一步調(diào)整策略。
實驗下鉆依賴于我們對用戶屬性有初步的標簽,在實驗分析時能夠用戶進行下鉆,或者說篩選。需要強調(diào):下鉆后用戶量少,不能保證置信度;另一方面這種“后驗”的方式會存在分組不均的潛在風險,需要我們針對下鉆結(jié)果重復去做實驗,才能得到可靠的結(jié)論。
4.3 可以做哪些新的策略迭代
通過漏斗分析,我們可以看到策略的斷點,策略是在哪一步開始失效的。通過產(chǎn)品優(yōu)化(頁面加載、按鈕樣式、引導樣式、文案等等)、運營優(yōu)化(調(diào)整策略下發(fā)時機、頻次;調(diào)整參數(shù)如金額、展現(xiàn)時長等等)。
這一部分是產(chǎn)品經(jīng)理最為擅長的,UG無非是強調(diào)基于準確結(jié)論來判斷問題的關(guān)鍵,去高優(yōu)先級推進最關(guān)鍵的迭代。
4.4 有沒有哪些通用的價值提煉
一個實驗結(jié)束,我們能夠得到的應該遠超過實驗指標提升。上升到對用戶價值提升的視角,這些策略之所以有用,是在哪些地方提升了用戶價值,是新體驗遠超過了舊體驗,還是極大降低了用戶成本?這些認知是否有可能推廣到相關(guān)領(lǐng)域、推廣到類似場景?
這些我認為是UG更大的課題,也需要產(chǎn)品經(jīng)理們更多的思考、總結(jié)和新的嘗試,這同時也是數(shù)據(jù)驅(qū)動的價值和樂趣~
總結(jié)
這個案例,麻雀雖小五臟俱全,需要關(guān)注的要點,最后再做一下梳理。
- 策略的目標是什么,需要看到哪些指標,如何評判
- 實驗設(shè)計時需要關(guān)注哪些地方,隨機分組、最小樣本量、單一變量這幾個最為基礎(chǔ);正交分層、SRM問題等我們后續(xù)單獨介紹
- 實驗結(jié)果怎么分析,如何挖掘價值,產(chǎn)生進一步的假設(shè)或迭代
文中不免錯漏,辛苦指出!
后續(xù)會跟進「實驗分析三部曲」一點點介紹各種主觀/客觀造成的分析難點:
- 增長實驗中的增量分析方法
- 準確量化不容易-基礎(chǔ)篇
- 準確量化不容易-進階篇
作者:jinlei886;5年+用戶增長的一手經(jīng)驗,前騰訊、滴滴出行用戶增長產(chǎn)品經(jīng)理,專注增長策略挖掘、增長工具搭建、實驗設(shè)計分析。本碩博均就讀于浙江大學高分子系。微信公眾號:用戶增長實戰(zhàn)筆記
本文由 @jinlei886 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自Unsplash,基于CC0協(xié)議
AA實驗置信了 除了重建實驗還有什么別的解釋嘛
最近刷抖音比較多,看到有的分享按鈕有差異,不過從顯性數(shù)據(jù)來看,貌似有頭像的分享率要低很多啊
據(jù)當事人分享的一手數(shù)據(jù),這個頭像至少增加了不少的分享率
2pp以上
我也是不解為何會提升數(shù)據(jù)指標 – -#,我也認為會下降數(shù)據(jù)的
1
有點好奇,這個好友頭像的按鈕,是否也是選擇挑選的好友?就是點擊直接發(fā)送給該好友嘛?還是只是好友頭像,但點擊仍是分享的頁面
你可以試一下抖音就好了惹~
我只有那個分享的圖標呀
長知識,期待后面的文章。尤其SRM問題,這個概念第一次聽說,很想看作者下回分解
感謝關(guān)注~ 但是實驗不是太受關(guān)注,哈哈 稍后我寫