重數(shù)據(jù)質(zhì)量、懂指標變化,是產(chǎn)品成功的必備DNA
缺乏對指標變化準確而有效的監(jiān)測和分析,就無法完全掌握一個產(chǎn)品,更無法將它完善。想要打造爆款,就必須運用科學的指標變化分析。本文將從比例變化、數(shù)據(jù)質(zhì)量兩個方面分析指標變化因素,并提出如何應對指標變化的行動計劃。
本文研究成果來自紅杉美國數(shù)據(jù)科學團隊,Jamie Cuffe、Avanika Narayan、Chandra Narayanan、Hem Wadhar 和 Jenny Wang 對本文亦有貢獻。
以下是部分要點摘要:
- 比例變化分析可以幫助你發(fā)現(xiàn)不同用戶群所占比例變化相對于用戶參與度變化所產(chǎn)生的影響。
- 無法簡單加以解釋的突然而劇烈的變化,是數(shù)據(jù)質(zhì)量問題最常見的表現(xiàn)。
- 保證數(shù)據(jù)質(zhì)量的最優(yōu)作法分為三類:如何正確記錄、如何識別問題和如何解決問題。
- 解決措施的有效實施要求企業(yè)對此全力以赴,形成長期機制,這也會讓企業(yè)上下更加注重質(zhì)量和追求卓越。
比例變化
“比例”有多種含義,有時候也稱作辛普森悖論。一家公司的“銷售比例”指的是其各個產(chǎn)品銷售額相對于總銷售額的權重。與此類似,“用戶群比例”指的是某個特定用戶基數(shù)(如某個國家的用戶人數(shù))在總用戶基數(shù)中所占的比例。
比例隨時間的變化稱作“比例變化”。例如:可能t1時刻的日活躍用戶量(DAU)美國用戶占了75%,其他國家用戶(ROW)占了25%;在t2時刻,前者則變?yōu)?0%,后者變?yōu)?0%。在這個例子中,每位美國日活躍用戶和每位其它國家的日活躍用戶所花費的平均時間(TS/DAU)單獨來看沒有改變,但是總體的TS/DAU卻有所增加。
以亞馬遜的Prime會員服務為例:如圖1所示,Prime平均交易價值一直隨著時間而變化,一方面是因為價格調(diào)整,另一方面則是因為各消費群體所占比例發(fā)生變化。Prime會員服務為一般用戶、學生用戶和低收入用戶提供不同的價格,擁有年付和月付的不同付費計劃,偶爾會有折扣活動。
2016年到2017年平均價格的下降主要是因為低收入群體會員、月付會員和學生會員的增加,這些群體支付的價格均低于其他客戶。每種產(chǎn)品的定價在這一時期都是固定不變的,變化的是不同客戶的比例??蛻舯壤耐暾畔?,可以讓我們準確地將圖1所呈現(xiàn)的變化,歸因于比例變化因素。
想象你分別在t1時刻和t2時刻調(diào)查某一家公司的日活躍用戶的平均時間,想要把TS/DAU的變化歸因于比例變化而不是其它變化,下面就是兩個極端的例子來展示發(fā)現(xiàn)比例變化影響的方法。
例1:純比例變化的影響
在t1時刻,美國用戶的TS/DAU是每天10分鐘;而其它國家用戶則是每天5分鐘。80%的用戶為美國用戶,因此總體的TS/DAU為每位用戶9分鐘。
在t2時刻,美國和其它國家用戶的TS/DAU均保持不變。但是,不同用戶群所占比例變了:美國用戶現(xiàn)在只占20%,而其它國家用戶占80%。新的TS/DAU數(shù)值變成了每位用戶6分鐘,減少了3分鐘,而這一改變完全來自于比例的改變。
正如上述例子所示,即使產(chǎn)品或是每個用戶參與度沒有發(fā)生變化,比例的變化仍可能導致整體參與度降低。
例2:無比例變化因素的影響
在t1時刻,美國用戶的TS/DAU依然是每天10分鐘,其它國家用戶5分鐘。美國用戶仍占80%,總體的TS/DAU仍為每位用戶9分鐘。
但在t2時刻,美國用戶的TS/DAU變了,增加到每天20分鐘,而其它國家用戶保持不變,比例也保持不變。而新的TS/DAU數(shù)值則因此變成每位用戶17分鐘,這增加的8分鐘完全由美國用戶參與度發(fā)生了變化導致,沒有受到比例變化的影響。
上面兩個例子都是極端的案例,整體參與度的改變通常同時受到比例變化和參與度變化的影響,提出量化這些影響的公式也相對比較簡單。
比例變化的影響可以通過國家、地區(qū)、平臺、年齡、性別、連接類型、設備類型等多個維度來分析。要使得比例變化分析最為有效,首先你應該認真思考這一問題,提出關于比例變化影響的假設。
數(shù)據(jù)質(zhì)量
最近幾年,企業(yè)負面新聞、監(jiān)管環(huán)境改變和大型金融機構的倒閉等因素,使得人們開始給予企業(yè)信息質(zhì)量必要的關注。例如:Facebook因為數(shù)據(jù)錯誤面臨多項問題。數(shù)據(jù)質(zhì)量低下會侵蝕相關群體對產(chǎn)品的信任,包括消費者、投資者和產(chǎn)品開發(fā)者,不利于人們對產(chǎn)品健康的準確評估。
無法簡單加以解釋的突然而劇烈的變化,是數(shù)據(jù)質(zhì)量問題最常見的表現(xiàn)。為了更好理解數(shù)據(jù)質(zhì)量問題的深層根源,我們可以制定解決這些問題的行動計劃。但在要做到這點之前,首先我們必須找到問題,限制它的范圍,這兩項任務都具有挑戰(zhàn)性。
數(shù)據(jù)不一致往往是因為數(shù)據(jù)記錄錯誤。要解決這些問題,需明確記錄錯誤可能發(fā)生的各個環(huán)節(jié):
(1)數(shù)據(jù)丟失
如果你最近剛發(fā)布新產(chǎn)品,或是在新的國家發(fā)布了產(chǎn)品還未有數(shù)據(jù)記錄,你可能會低估關鍵指標的總值。因為在剛開始,數(shù)據(jù)丟失這類錯誤通常不會顯著影響指標總值,而是會隨著時間逐漸增加影響,因此難以被我們所發(fā)現(xiàn)。
(2)重復記錄
一些情況下,數(shù)據(jù)的提取、轉化和上載過程中,可能會出現(xiàn)某個值重復多次記錄的情況,導致總值人為上升。同樣地,重復記錄這類錯誤也難以一開始就被發(fā)現(xiàn),其影響會隨著時間的過去逐漸顯現(xiàn)。
(3)錯誤記錄
數(shù)據(jù)質(zhì)量問題的出現(xiàn)常常是因為數(shù)據(jù)記錄出錯,例如:將變量2的數(shù)值輸入給變量1或是輸入了錯誤的數(shù)值等等。
(4)數(shù)據(jù)轉化問題
雖然對原始數(shù)據(jù)進行“轉化”可以增加數(shù)據(jù)的可用性,但同時也會導致錯誤的發(fā)生。重復記錄會導致多種問題,包括錯誤的連接、對象之間關系錯誤(如:對兩個不同對象使用同一名稱)、合并不正確的來源及老化問題(如新舊數(shù)據(jù)組前后不一致)。
在過程中的每一關鍵節(jié)點進行檢查,實施質(zhì)量控制,可以確保數(shù)據(jù)轉化問題的識別。有些問題更容易發(fā)現(xiàn)(發(fā)現(xiàn)的代價較低)和解決,但所有問題都可以參照下面列舉的最優(yōu)做法來解決。
保證數(shù)據(jù)質(zhì)量的最優(yōu)作法分為三類:如何正確記錄、如何識別問題和如何解決問題。
(5)正確記錄
產(chǎn)品開發(fā)的早期階段,理解記錄哪些數(shù)據(jù)、變化將如何發(fā)生并如何體現(xiàn)于這些數(shù)據(jù)中,這點十分關鍵。你還應將任何可能影響數(shù)據(jù)質(zhì)量的公司規(guī)定及技術要求記錄在案,有利于更全面地發(fā)現(xiàn)問題。
(6)識別問題
監(jiān)測數(shù)據(jù)質(zhì)量問題時,要主動去發(fā)現(xiàn)而不是被動地反應??蓮囊韵聝蓚€角度尋找問題:自下而上和自上而下;在上下兩端均采用警報系統(tǒng)是識別問題最有效的辦法。
(7)解決問題
一旦你找到了某一數(shù)據(jù)質(zhì)量問題的原因,解決問題就相對容易。評估問題對企業(yè)的影響和產(chǎn)生的成本也同樣重要,這些對下游造成的影響往往難以量化,特別是如果問題本身難以發(fā)現(xiàn)。
解決措施的有效實施要求企業(yè)對此全力以赴,形成長期機制,這也會讓企業(yè)上下更加注重質(zhì)量和追求卓越。
行動計劃
一旦確認確實存在值得認真研究的指標變化,你需要制定系統(tǒng)性和結構化的解決辦法來找到每個可能的原因,并努力消除它們。
首先要做的就是選取兩個最能體現(xiàn)你要研究的指標變化的時間點(變化越大,時間越短,發(fā)生變化的原因就更容易被發(fā)現(xiàn))。然后確定究竟哪些因素可能導致關鍵指標的變化,你要對此提出多種可能性。列出所有可能性后,逐個因素地去排除或調(diào)查。
(1)數(shù)據(jù)質(zhì)量
首先調(diào)查是否存在數(shù)據(jù)質(zhì)量問題,因為它們最容易發(fā)現(xiàn)。尋找和產(chǎn)品變化有關的記錄問題,如:導致某個地區(qū)、語言、國家、設備的日活躍用戶量記錄錯誤的漏洞。
為了確認問題是否為局部性問題,需要調(diào)查變化是否涵蓋了所有維度的系統(tǒng)性變化還是只局限于某些維度。另外,檢查其它相關指標是否同樣發(fā)生變化。例如:如果會話次數(shù)與日活躍用戶量相關,而你僅看到日活躍用戶量發(fā)生變化而會話次數(shù)沒有改變,原因可能是記錄過程存在漏洞。
(2)產(chǎn)品變化
列出指定時間段內(nèi)產(chǎn)品發(fā)生的變化,如果沒有變化,可以排除此項因素。但要注意這項因素很可能被忽視,需要通過對變化進行追蹤,找到一種方式對此進行解釋。
如已有實驗框架(進行了A/B測試),需要量化每項產(chǎn)品變化對關鍵指標的影響。
尋找由產(chǎn)品變化導致的行為變化,檢查每個群體的行為變化(如:不同國家、使用不同設備的用戶群體等)來判斷變化是否僅限于局部,然后看看這些群體的這一指標變化發(fā)生的時間。如果這個時間不在你根據(jù)產(chǎn)品變化發(fā)生的時間而推測的時間段內(nèi),則很可能是行為變化導致了產(chǎn)品變化。
還要記住,網(wǎng)絡效應還可能導致某一問題的影響擴散到首先抵達的人群范圍以外。例如:如果某個漏洞導致一個國家的人無法使用某個交流平臺,它同樣也會減少其他國家或地區(qū)的用戶參與度。
(3)行為變化
季節(jié)性通常是導致行為變化的最大原因,但是外部事件和競爭也可能導致行為變化。
(4)比例變化
要判斷是否存在比例變化,首先要提出變化發(fā)生在哪個維度的假設。在上文中我們已經(jīng)對如何量化比例變化的影響提出了具體的建議,需要額外注意的是:比例變化可能是長期變化發(fā)生的主要原因,但不太可能是周和周之間的變化原因。?
作者:洪杉,公眾號:紅杉匯(ID:Sequoiacap)
來源:公眾號:紅杉匯(ID:Sequoiacap)
本文由 @紅杉匯 授權發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉載
題圖來自Unsplash,基于CC0協(xié)議
- 目前還沒評論,等你發(fā)揮!