數據的驗證價值:如何利用數據驗證你的想法及假設?

3 評論 40828 瀏覽 89 收藏 27 分鐘

數據的使用價值,以其目的,可以分為三類。一類用于驗證假說的是否,二類為思維之翻譯,三類以趨勢做預測。

前者是科學之所以為科學的護盾。這是說,我們總有一些道理,不知出處,或道聽途說,或直覺所致,大體上,都可以暫理解為“假說”一類的道理,即未經證實的假設。我們提出一條假說,為驗證假說,做了一個實驗,總結了一些數字,用數字證明假說正確與否——這是我認為的數據的第一大效用。

第二類效用,舉凡KPI、排行榜、算法之類的皆屬此列。這類應用的思想是,算法設計者“想”讓“誰”得到高分。因此,其數據結果的高度,取決于“規則設計者”的高度——我總是對這一類應用抱有警惕。因我自身偶爾都會扮演一下這“設計者”的角色,而時時苦惱于此。

第三類常見于各類趨勢表,可觀歷史,亦測未來。準確且長遠地預測未來是此效用的終極理想。理論上,時間越近,關聯越少,預測越準確。但是我們使用數據總是希望分析更加復雜的事務,因此受限于我們對世界的了解程度,使得預測結果總是存在或多或少的不確定性。

決定論認為事物具有因果聯系性、規律性、必然性。通俗點說,就是如果我們理解了宇宙所有物質的運行規律,就可以準確知道未來會發生什么,決定論也認為我此時寫下這句話是在世界誕生之初就決定好了的,曰之“命運”。非決定論與其相反,認為世界存在一定的不確定性。

預測科學試圖通過特定范圍的關聯因素及因果性預測出一定程度準確的未來,但是也為“不確定性”保留了“置信區間”。

本文因筆者的學識有限,姑且將焦點放置于第一類效用,即:驗證假設。展開為三個部分:一為指標,對基本概念的理解。二為分析,數據分析場景的梳理,及數據后臺的設計。三為驗證,假說與驗證的思考方式。

指標

數據來源

用戶在前臺進行各種行為留下痕跡,由于用戶行為留下的數據較大,用戶有行為就記錄,對服務器壓力較大,所以會把前臺的行為數據單獨存儲到日志服務器中。

那么按照數據的存儲位置,大致會分成行為數據和后臺數據兩個類型。

第三方數據分析工具獲取的都是前臺的行為數據,也就是第三方(比如友盟)代替了原本的“日志服務器”的角色。

我們在設計數據產品時,應該了解數據來源,并且將不同的數據來源進行對接。

31

數據

由于產品形態的差異,獲取數據的類型也有一些差別。

網頁產品的組織結構是頁面,用戶行為從刷新某一個頁面開始到刷新下一個頁面結束,PC產品可以獲取到的基礎數據主要有:

訪問終端IP地址

用戶訪問網站時使用設備的IP地址。不同設備有對應的IP地址,主要用于分辨地域,但是統計結果有較大誤差。

訪問時間戳

用戶訪問頁面的時間點,用于判斷用戶行為的時間順序。如用戶訪問頁面A時記錄時間點,訪問頁面B時記錄時間點,可以認為用戶在第二個時間點離開了頁面A。

訪問地址路徑

可以理解為用戶訪問頁面URL,用于分辨用戶訪問網頁的目的地,也就是訪問了A頁面還是B頁面。

訪問來源

來訪的來源信息,比如來自搜索引擎的搜索結果頁、直接訪問、外鏈網站等。

來訪者的其他信息

操作系統、瀏覽器、爬蟲等信息。這類數據是由來訪者表明身份獲得的信息,因此取決于來訪者的自覺性,有誤差。有些瀏覽器不提供給非合作者信息,非正規爬蟲也不會表明信息。

APP產品獲取的基礎數據主要有:

終端信息

獲取終端(手機、平板等)信息用于識別用戶

操作系統

OS/Android/Win等

客戶端信息

APP上傳的自身信息。

客戶端時間

用于判斷用戶啟動或操作應用的時間點

操作事件

APP按照自定義事件所需,上傳用戶的操作行為和伴隨這個行為的客戶端信息。這是APP區別與PC的一類重要數據,其對用戶行為的跟蹤比網頁通過刷新獲取的數據更加精準。

用戶識別

如果我們想要分析的某個結果需要涉及不同的數據來源(比如我們的用戶在某個時間段使用APP的場景更多還是PC場景更多?),那么數據與數據之間的關聯工作是最重要的。我們通過用戶識別的方式關聯不同來源和結構的數據(識別產品a的用戶a和產品b的用戶b是同一個用戶U),以下是三類用戶的識別方式:

網站用戶識別

如果我們有兩個網站產品,我們如何知道有哪些來訪者同時訪問了AB兩個網站呢?

Cookie是網站以一小段文本的形式存放在用戶本地終端的信息,以便網站之后的讀取。Cookie是目前網站識別訪客的主要手段。由于用戶禁止或對Cookie進行清理等問題,這個數據結果的誤差也會比較大。

APP用戶識別

APP的識別方式類似網站,把信息寫入終端。由于手機發生信息丟失的情況(比如刷機)比較少,所以APP的用戶識別相對比較準確。我們可以知道每次啟動這個應用的訪客是不是我們認識的那一個。

產品用戶識別

如果同時有網站端和移動端產品,我們又想知道哪些用戶同時使用了網站和APP,由于以上識別方式是基于設備,數據中就無法判斷用戶了。所以跨產品形態的用戶識別通常使用注冊用戶ID,前提是推動用戶的注冊和登錄行為。

指標

以下是我們在產品數據分析中常用的指標。

網站常用的指標

IP地址

PV瀏覽量:頁面瀏覽量。每刷新一次頁面,被記錄為一次PV。

Visit訪問次數:今日早上訪客A進入網站后離開,下午訪客A又一次進入網站,并記錄為2次Visit(開發者使用會話數session定義一次訪問行為,與visit的意義相同)。

visitor訪問者/UV訪客數:本周訪客A進入網站10次,記錄為1個UV,10個visit

訪問時長:即訪客的停留時間,訪客先進入頁面A然后進度頁面B,頁面B的訪問時間減去頁面A的訪問時間即訪客停留頁面A的時長,另外我們定義訪客停留時間超過某個時長(通常是半小時)即離開網站,一次visit結束。

訪問深度:訪客在一次訪問行為中,訪問了幾個頁面。

跳出率/退出率:訪客訪問landing page(一次訪問行為的第一個頁面,任何一個頁面都可能成為這個網站對于用戶的登錄頁)時離開網站即“跳出”。退出頁是指用戶這次訪問行為的最后一個頁面(因每次訪問都必然退出,所以退出率只能用于判斷某個頁面,網站的退出率理論上是百分之一百)。

留存率:留存率通常指整個產品的留存,周日(起始日)進入網站的新用戶為100人,周一這100人里有50人繼續訪問了,到下周日,這100人中訪問網站的還有2人??傻贸觯苋站W站的次日留存50%,7日留存2%。

上下兩圖中,整體活躍用戶數都在增長,但是留存曲線告訴我們下圖留存表現更好,留存曲線在最后趨于平穩,而上圖,用戶在增加,但是也在不斷流失,所以最后用戶總數也無法提升。

32

留存是產品運營健康程度的重要指標,不同的留存率走勢關系不同的功能和運營周期。比如某產品用戶完成核心任務的周期是6日左右,那么我們關注7日留存指標,常見的周期是次日、3日、7日、15日等。

轉化率:轉化率是指在開始任務的過程中,通過某個步驟的人數比例:如果一個任務有abc三個步驟,a步驟100人,這100人中50人開始了b步驟,則b步驟的轉化率是50%。

轉化率經常使用漏斗圖進行解讀分析,是一個評測產品交互設計的關鍵指標。我們用它來監測流程中的哪個步驟出現問題,進而尋求解決方案。

APP與網站的差別是APP并非以頁面為單位獲取數據,并且與網站可以從任意一個頁面進入不同,APP啟動后停留的位置是基本固定的(首頁,或者開發者指定的頁面)。因此,與頁面相關的指標不在APP的常用指標中,比如PV(頁面瀏覽量),訪問深度(瀏覽的頁面數),跳出與退出(進入頁與退出頁的指標)等。移動端最有價值的數據集中在對行為事件的統計上。

  • UV用戶數:與網站相似,APP中定義為啟動應用的人數。
  • 啟動次數
  • 使用時長
  • 留存率
  • 自定義事件數

自定義事件可以對行為、控件、位置等信息進行定義,比如“用戶在xx位置,切換xx控件的狀態的事件”或者“用戶在xx位置,點擊xx按鈕的事件”等?;驹硎茿PP在用戶進行某個行為時上傳(分析所需的)信息。

自定義事件幫助我們獲得大量的用戶行為數據,對各類分析場景都有巨大幫助,比如“我想知道使用功能A的用戶有多大概率使用功能B”,對于轉化率的監測也更加精確。

轉化率

網站中的轉化通常是監測從“頁面A–頁面B”的用戶數,APP中由于自定義事件的存在,可以監測“位置A的按鈕A—位置B的圖片B”的用戶數。

除了以上常用的基礎指標,還有一些在分析的過程中被一步一步推理和分解出來。

常用的可視化圖表

餅圖

表達整體的一部分,表達同一個指標的不同部分,餅圖適用于規模類數據,直觀可理解,但是信息的擴展不足,一張圖表通常只能表達一種指標。

柱形圖/條形圖

這類圖表重于不同系列之間數據的對比。

折線圖

折線圖更重于時間線上的前后關系,與柱形圖不同,相近的數據對比性不強,更加重視整體趨勢。由于其可擴展性更強,是最常使用的圖表。

下圖中還舉例了異型圖表,以及復合型圖表。

33

分析

關注數據的對比

僅訪客數可能無法幫助我們得到什么有價值的信息,但新老訪客比例可能就暗示了什么;如果今天的購買量不能說明什么,那么今天與昨天的購買量比例就說明了什么——對比才有意義,我們的分析過程是大量的不同維度的數據對比。

數據分析的目的

我們首先應該探討數據為何目的使用。

數據的使用價值遠大于數據本身,多數情況,當我們試圖進行數據分析的時候,關注的是“能否獲得更多收入”或者“能否提供更大價值”。

目的決定視角。

商業目標

商業產品以面向用戶的消費為主要營收,所以數據分析的目的是“提高用戶營收”,數據的分析視角是“用戶使用產品的體驗過程(因為用戶為此付費)”。

社會目標

如果我們的目的是“能否為殘疾人提供更大價值”,數據分析的目的是“提高殘疾人的生活便利程度”,數據分析的視角是“殘疾人使用產品的體驗過程(用戶因此獲得幸福感)”。

(作為產品人,我建議同時考慮這兩個目的,一則為企業消災,二則為自身格局)。

我們將通過用戶使用產品的視角,先后獲得到用戶使用過程中的數據,然后制定關鍵指標來驗證是否達到了目的。

用戶使用產品的過程與其產生的指標

我們已知流程是由一個個任務節點構成的,用戶在使用產品的過程中通過一個個任務節點,最終完成流程。

數據從用戶進行任務的過程中誕生,且由這些數據構成指標。

下圖是某健身產品的用戶流程圖(非可操作文檔,僅用于邏輯說明的案例)。跟隨圖文了解思路。

(圖示來自前作http://www.aharts.cn/data-analysis/439844.html,未及分析細節,在此補足。更多數據后臺設計圖片請點擊鏈接)

(偽)數據后臺0

將用戶與產品的交互過程按運營工作順序劃分為接觸、使用、傳播、離開、激活幾個區間。

1.對每個區間包含的用戶任務進行梳理:

  • “接觸”環節用戶經過下載APP,運行APP,創建賬戶等任務
  • “使用”環節用戶經過運動、社交、購物等任務。“運動”任務包含定制課程,訓練等任務。其中“定制課程”又包含各個子任務…以此類推。
  • “傳播”環節包含用戶邀請、內容轉發等任務
  • “激活”環節包括通知消息、通知啟動等任務
  • “離開”環節包含沉默、流失等任務。

2. 對每一個任務產生的基礎指標進行梳理?;A指標通常指“數量”,比如下載產生的指標是“下載量”

3. 對前后任務基礎指標的對比,產生一系列前后轉化的復合指標。如運行的下一個步驟是注冊,前后對比就產生“注冊率”指標。

復合指標不是唯一的,按照運營所需可以進行各種維度的擴展,比如“首次啟動注冊率”之類的指標。

4. 對關鍵任務流程進行漏斗型轉化。這個工作與上一個步驟相似,它針對有多個復雜任務的重要流程進行轉化率的分析。如圖中“定制課程表”的流程(前文對轉化率進行過說明,不贅述)。

5. 其他運營指標。

  • “病毒傳播系數”:由邀請與接受邀請構成的指標,用戶邀請率×邀請接受率的結果。
  • “活躍用戶數”:自定義x時間段內打開過產品的用戶數,默認為1日的時候,這個值等于日用戶數。
  • “沉默用戶數”:自定義x時間段內沒有打開過產品的用戶數,運營可根據這個值設計不同的激活用戶的活動。因為無法直接確認用戶是否卸載APP,所以可認為超過某個時間段,用戶已流失。除了圖中涉及的指標,在對自身產品進行分析時,可以分解出更多有價值的指標。

驗證

數據驗證因其目的,上至下分為以下幾類。

戰略方向

“關鍵指標”驗證方向合理性

傳統的數據分析會為產品數據設立KPI,當KPI數值接近優勢或危險區域時提醒或警告。“關鍵指標”的意義與KPI相似,但KPI是為了監控產品的“健康程度”,而“關鍵指標”是為了“驗證目標是否達成”,因此它的應用場景有更大的靈活性,不論是否互聯網產品,目的大小,都可以使用這個思考方式。

并且,我們日??梢员O控這個“關鍵指標”,而不是每天都花很多時間去分析每一個指標的數值發生了什么變化。

我們在不同的產品階段,為產品制定不同的方向,比如初期產品要切人某個市場或用戶群,中期產品要檢查盈利效果,后期產品要擴大規模。在不同的階段或者環境下,團隊制定不同的方向指導工作,并且用“關鍵指標”監控這段時間的工作成果。

尋找合適的驗證指標

舉例“切入市場”階段。關注的是某類用戶群與產品的契合情況,也就是說產品對這個市場的用戶群的吸引力和粘性(早期雖然對產品的目標市場有所預期,但是運營依然會考慮從各種不同的市場渠道引入用戶,確認或尋找產品最契合的用戶群體后再加大投入)。假設一個鞋類垂直電商產品,從產品投入市場到有所沉淀的這段時間,團隊的目標是進入運動鞋市場,同時確認和尋找契合度較高的用戶群體,團隊一開始選擇的關鍵指標有“付費用戶比例(進入市場后的表現情況)”“渠道用戶付費比例(用戶群質量對比)”等。

驗證指標是否有負面影響

但是關鍵指標(假設)周付費用戶比例的計算公式是周付費用戶/周活躍用戶,那么要想提高這個指標,或者提高付費用戶增量,或者減少活躍用戶增量,后者并不是團隊早期樂見的(因為此時運營正在努力的尋找不同的用戶群,正是需要大量試錯的時候),所以指標又修改為“付費用戶凈增”——即重視高質量用戶的數量。并且團隊把這群用戶作為其他指標分析時的重要維度(比如付費用戶使用頻率最高的功能模塊,付費用戶關注的運動鞋類型等等)。

結論

在這個案例中,團隊使用“付費用戶凈增”驗證產品的市場方向,用“渠道用戶付費比例”驗證產品的目標用戶。

執行方案

“因果指標”與“關聯指標”驗證方案的可行性

為了完成整體戰略方向,我們為產品設計一系列方案,理論上這些方案都支持戰略方向的實現。也就是由于方案的執行,達成上一層戰略方向的結果。這就構成了執行方案和戰略之間的因果關系。那么問題來了:執行方案能否完成戰略?戰略結果數據表現不好的原因又出在哪個環節?

為此,我們要確認方案的各個主要環節的執行情況是否影響了戰略方向的結果。

確定因果指標

上文中指導戰略方向的“關鍵指標”是“付費用戶凈增”,這個指標是由“新增的付費用戶”減去“退單的付費用戶”得到的。為了提高關鍵指標,需要增加新增付費用戶,以及減少退單用戶,這兩個純量指標,他們就是關鍵指標的“因果指標”,即,如果修改了這兩個數值,必然導致關鍵指標數值變化的結果。

推測關聯指標

(統計理論:關聯性不等于因果性)。

那么新增付費用戶的增加可能出于哪些原因?或許是新用戶的增加,或許是產品質量的提高,或許是商品價格的降低,都有可能提高付費用戶數量。但是這些可能的原因,都是我們的推測與假設,所以這些可以被定義為“關聯性”事件。對這些可能的“關聯指標”進行數據監控:修改某一個指標的數值(通常是執行方案的某個子方案,比如進行一次促銷活動,修改了新用戶與商品價格的數值),是否影響“因果指標”,進而影響“關鍵指標”的數據結果——從而驗證這些整個執行方案的可行性。

優化方案

方案效果測試

在這里的優化方案,指的是小范圍的局部的不確定性的產品優化方案,而不是戰略性的整體性的產品方案。這些方案經常出現在工作中無法定義答案的溝通環境中,無法推測其效果如何,比如“這個圖標放在左側更好還是右側?”。A/B測試之類的實驗可以幫助我們尋找到更加合適那個方案,為縮短時間,我們也可以進行多個方案的同步測試,比較結果。

不受控的方案,受控的實驗

比如我們想要提高某個按鈕的點擊率,那么是否應該優化這個按鈕的形式或者設計?此時我們就把多種方案(不同風格的圖形、不同的按鈕文案、不同的色彩)在一個受控的范圍內進行實驗(定義實驗時間,用戶量,用戶群性質等等),獲得某一種方案“相對更好”的數據結果。

結語

對于數據的思考始于多年前我開始疑惑于自己工作成果的價值,我們每個人都對自己的方案充滿“主觀”的自信,這個自信讓我很不安,總認為事情沒我想象的這么簡單。于是,我開始琢磨如何來驗證自己的方案,也因此,投入了數據分析的懷抱,這也是這篇文章想表達的主要觀點——數據的驗證價值。

因我對于學習成果的理解,是以能否做有效的輸出為檢驗的,所以即便開啟這個話題多有猶疑,也還是在考慮了幾個月之后選擇動筆。數據的話題廣闊且深邃,但凡有一個人選擇要聊聊這件事,我都是愿意抱有一個謹慎的態度的,所以讀者也不妨對這篇文章也抱有這樣的心態,盡量挑剔的,質疑的,批判性的看待所有文字。

#專欄作家#

GaraC,知乎賬號:GaraChenV,人人都是產品經理專欄作家。專長研究用戶體驗,虐待各種形式的鍵盤。關注教育、學習、LBS等相關領域產品。專業鑒定各種書籍。愛好:收集各種樂譜和書。

本文系作者獨家授權發布,未經本站許可,禁止轉載,違者追究法律責任。謝謝合作。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 紙質書看完了五分之四,很有收獲!

    來自北京 回復
  2. 寫得挺好的,學到很多新姿勢。 ??

    來自廣東 回復
  3. lyy

    回復