獨家!如何玩轉數據分析?
編輯導語:產品的完成離不開數據分析這一步,作為一名產品設計師必須具備根據實際情況去建立模型的能力。這篇文章介紹了如何玩轉數據分析,推薦想要了解數據建模的童鞋閱讀。
作為產品設計師,數據分析不僅僅簡單的根據產品給的數據去分析,而是要根據實際情況去建立模型。(為便于理解,文中所示代碼不是特別規范,不影響使用,望包涵)
數據驅動設計流程
一、數據化決策——數據化決策的過程就是量化的過程
數據化決策就是通過量化的數據來輔助我們進行決策,從而提升決策的科學性和準確性。
1. 了解量化
歷史上最早的科學家曾經不承認實驗可以有誤差,認為所有的測量都必須是精確的,把任何誤差都歸于錯誤,直到后來人們才慢慢意識到誤差永遠存在,不可消除。量化也是如此,量化是為了減少不確定性、估算風險,從而輔助決策,因此量化的過程也不需要無限精確,不需要完全消除不確定性,只要能夠支持我們決策即可。
2. 置信區間——量化的一種方式
因為量化并不一定都是一個精確的數字,并且在現實中,我們經常會遇到數據不完善、數據量過于龐大短時間內難以處理,因此我們引入統計學概念——置信區間,用于輔助我們決策。置信區間是指:以特定的概率表示一個正確答案的范圍。
一般情況下,我們要求置信區間要足夠窄,且信心要在80%以上。信心過低意味著這個數據區間錯誤的可能性很大,區間過大意味著這個區間缺乏參考意義。
例如:本次考試的成績有100%的信心在[0,100],這個區間等于什么都沒說,缺乏了參考意義;本次考試的成績有5%的信心在[95,100],這意味著本次考試成績有95%的信心在[0,95],因此[95,100]這個區間很有可能是錯誤的。本次考試的成績有80%的信心在[85,100],這意味著這個區間很有可能是對的,能夠反應真實情況,甚至我們可以認為班級平均分是92.5左右。
置信區間示例
二、數據拆解
1. 確定目標——目標必須可量化
每個項目都有一定的目標,因此我們在做之前,必須要了解我們的目標是什么,有些時候,業務或者產品直接會告訴我們目標是什么,例如提升留存率、提升轉化率,此時目標非常清晰,我們直接進行目標拆解就可以了,當然有些時候目標會比較模糊,例如提升用戶體驗,此時我們需要通過澄清鏈的方式讓目標變的可量化。
2. 澄清鏈——讓目標可量化
澄清鏈就是把某物想象為無形之物再到有形之物的一系列短的鏈接過程。例如有些時候我們的目標是提升用戶體驗,這個目標是不符合「SMART原則」中可衡量這一條,此時我們沒法直接開始做,我們需要將這個目標變成量化的。這個目標我們可以感知到嗎,通過哪些方面感知呢?
這些可感知的方面是可以衡量的嗎?那么我們要通過其他數據來衡量?此時我們要反問,為什么要提升用戶體驗?提升用戶體驗用戶會有哪些行為?那可能用戶更愿意逛我們的平臺,那就可以用停留時長、瀏覽的屏數來衡量體驗是否真的提升了。
澄清鏈示例
3. 目標拆解——把業務目標變成設計目標
確定好目標后,此時的目標可能更偏向于業務側/產品側,較為抽象,難以直接通過設計達到,因此需要將目標拆解成不同數據指標的組合,從中選取設計可以觸達的數據從而達到目標。
4. 行為路徑分析法——研究用戶行為數據
基于用戶的行為路徑(用戶行為路徑即將用戶點擊瀏覽的數據可視化而成)來拆解目標,找到設計可發力的環節從而達到目標。
這個方法的難點在于要對業務非常熟悉,需要詳細的了解用戶所有的路徑,通常也可以采用“抓大放小”的方式,整理出用戶主路徑,對主路徑進行研究,暫時放棄子路徑。例如用戶完成目標G可能需要經歷A-B-C-D-E-F這些,整理出每個頁面的UV,從而找到中間的漏損最嚴重的點進行優化。
用戶行為路徑一覽圖(示例)
用戶主路徑一覽圖(示例)
5. 公式分析法——較為開放式的方法
即通過數據的計算公式進行拆解。例如:GMV=UV*客單價*轉化率,此時我們就知道,我們可以通過提升UV、提升客單價或者提升轉化率的方式來提升我們的目標。公式法還可以嵌套使用,例如轉化率=下單用戶數/首頁UV,下單用戶數=頁面A UV*頁面A轉化率*頁面B轉化率*···*頁面N轉化率。
也可以和行為路徑法結合使用。使用公式法要注意,當遇到一些比率的指標時,分子和分母不能同時變大或者同時縮小,否則難以實現總的數據指標的成長。這種方法適用于對于目標非常明確的。
公式分析法示例
6. 數據分層法——較為發散式的方法
尋找創新型解法或數據體系不夠完善時使用。我們將數據按一些維度進行分層歸類,發現數據間的共性和聯系,從而找到設計發力的點。需要注意的是,數據的每一次分層都需要保證維度是統一的,一般是用戶路徑數據、用戶畫像數據、產品數據這三個維度進行分層:
一,用戶路徑數據:用戶在這個頁面之后有多少用戶沒有按照既定的設計進入下一個頁面,他們去了哪些頁面,分別占比是多少?去了這些頁面之后又去了哪里,分別占比是多少,整理出用戶的路徑尋找共性。
用戶路徑數示例
二,用戶畫像數據:訪問這一頁面的有哪些用戶,這些用戶有哪些共性,例如都是女性、都是18-25歲的女性、都是18-25歲研究生學歷的女性。
用戶畫像數據示例
三,產品數據:產品數據進行排序、分層。例如:優惠券領取頁UV、優惠券領取數量、優惠券使用數量。那么優惠券的領取率和使用率是多少?領一、二、三張優惠券的用戶占總體的比率分別是多少?優惠券使用一、二、三張的用戶占總體比率是多少?當頁面UV為0-1000時,優惠券領取數量、優惠券使用數量是多少,其領取率和領取使用率如何,當UV為1001-2000時,優惠券領取數量、優惠券使用數量是多少,其領取率和領取使用率如何,以此類推:
產品數據分層示例
產品數據分層示例
數據分層后還可以嵌套分層,例如先將用戶畫像數據分了A、B、C層,那么我們可以去研究A層用戶行為數據分層情況如何,B層用戶行為數據分層情況如何,C層用戶行為數據分層情況如何。當數據分層后,就可以尋找關聯:
- 尋找關聯:此時建議使用餅狀圖和折線圖,餅狀圖用于查看分布情況,折線圖用于查看趨勢情況,例如用餅狀圖可以查看用戶領取優惠券數量的占比,我們能找到哪個部分的數量最多,用折線圖可以查看領取數和使用率的關聯性。
- 匹配目標:我們繪圖之后我們會很容易發現規律,例如,我們會發現領取的優惠券數量越多,用戶的使用率越低,結合公式法我們知道,使用率=使用的優惠券數量/領取的優惠券數量,如果要提升領取率,我們可以提高使用的優惠券數量也可以減少領取的優惠券數量,但是如果我們減少領取的優惠券數量,雖然使用率提高了,但是對于業務并沒有幫助,只是虛假的繁榮,因此我們應該提升優惠券的使用數量。
- 合理推測:當我們找到發力點之后,可以進行腦暴,推測數據不理想的原因,后續可以通過用戶調研進行驗證。例如,我們可以猜測用戶領取那么多的優惠券其實并不知道這些優惠券到底是哪些,使用門檻是什么,只是看到就領了。
三、數據分析
數據分析分為三個部分,分別為數據清洗、數據處理、機會點排序。
1. 數據清洗
數據清洗包括了無效數據清洗、重復數據清洗、無關聯數據清洗。一方面是為了將垃圾數據剔除,以免影響數據結果,另一方面是為了減少數據干擾,提升處理效率。
2. 數據處理
由于我們想要的數據可能并不是標準常見的數據指標,因此我們拿到原始數據之后需要根據我們的需求將原始數據處理成我們想要的數據,例如領取一張優惠券的用戶占總用戶數的比例,領取兩張優惠券的用戶占總用戶數的比例。
3. Python教程
推薦使用Python,簡單易學且數據處理更為高效以下代碼也可以復用。
4. 頭文件
每個Python文件都有頭文件,頭文件導入了各種模塊,常用的有matplotlib、pandas、numpy、openpyxl。其中matplotlib用于繪圖,pandas和numpy用于數據處理,openpyxl用于支持各種數據表的格式導入。
5. 導入原始數據
在處理之前需要把原始數據導入進來,以excel文件為例,其中./newdata.xls是原始數據excel表的路徑和完整的名字,source_data是用于存放原始數據的數據結構,可以根據自己需求定義為不同的名字。
6. 創建空表
我們還需要新建一個空表,用于存放我們處理好的數據,shape=(0, 3)中的0和3分別表示行數和列數,初始行數可以為0,不用管,列數就設置為我們想要的列數。其中title1、title2、title3可以自定義我們表頭的名字。
7. 處理數據
數據清洗,如果某一列數據中,有某一條數據為空,則把這條數據刪除掉。
根據需求將對于列表的數據進行加減乘除,需要注意的是分母不能為0。
8. 數據輸出
數據處理完成后,可以將處理好的數據導出為excel等格式給其他同事。
9. 繪圖
如果有需要,則可以直接繪圖,從而判斷各個數據之間的關系。
10. 完整代碼示例
11. 機會點排序
通過數據分析后,我們能找到許多機會點,但是不同的機會點價值是不同的,因此我們需要根據機會點的價值進行排序??梢灾苯油ㄟ^置信區間進行估算排序,例如當我們優化了頁面A之后,頁面A的流失率有80%的信心降低在[5%, 10%],當然也可以通過精細化數據計算從而判斷更為精準,但是會耗費更多的精力。價值排序完成之后,我們后續還需要跟項目其他成員一起,基于可行性和實際的資源投入情況計算ROI,從而選擇最適合的機會點去實現
四、設計方案
1. 設計調研
確定機會點之后,有些探索性的機會點我們可以直接通過設計方案執行,而另外一些機會點我們也進行了合理推測,在設計調研環節則是對這些推測進行驗證,看是否真實出現在用戶中。受制于環境的影響,我們常用的方式是就是電話訪談和問卷調查,這兩個本質上還是一樣的
2. 確定目標
在這里就是要確定我們驗證的是哪個猜測,例如我們驗證用戶是,我們問卷的問題需要圍繞著這個目標來
3. 篩選用戶
篩選用戶有兩種方式,一種是我們定向發放,一種是定向選擇。定向發放是指,我們從符合要求的用戶中隨機抽取一定數量的用戶向他們投放問卷或者撥打電話。定向選擇是指,我們向全量用戶進行投放,然后從收集到的結果中篩選出符合我們需求的用戶,當我們資源比較緊張時,可以采用少量樣本,一般認為,5個用戶就可以發現80%的問題
4. 設計問題
設計的問題需要圍繞著我們的目標,由簡到難,盡可能多的使用選擇題的形式,主觀題建議最多一題,而在電話訪談中可以在最后跟用戶進行溝通。需要注意的是,在問卷最開始需要收集用戶信息,以便于我們二次確認該用戶確實是符合條件的用戶
5. 收集反饋
結果收集后根據使用前面說的數據清洗和數據處理的方式對結果進行處理,需要注意的是,需要保留源數據,如果是電話訪談的話需要保留電話錄音,以便于后續細節的確認
6. 設計方案
當我們找到目標、用戶反饋之后,就可以設計我們的設計方案了。此時要圍繞著用戶的目標、場景,借助“福格行為模型”合理設計方案
7. 設計驗證
設計方案的同時需要確定數據埋點,我們需要根據各個數據埋點的情況來確定我們的設計方案是否有效,并且通過這些數據發現更多可優化的點,并且同時,最好是可以把之前想要但是沒有的數據埋點也埋上,為以后做準備
結語
以上內容寫的比較多,一次性難以消化,建議大家多讀幾遍。中間有些內容例如設計方案、用戶調研其實說的還不夠細致,后面有機會的話會慢慢寫出來跟大家分享。
作者:何必復雜;公眾號:何必復雜(UXSimple)
本文由 @何必復雜 原創發布于人人都是產品經理。未經許可,禁止轉載
題圖來自Unsplash,基于CC0協議
寫的真好,希望后續有實際案例!
寫的很詳細呀,數據分析確實是很有用并且必要的,很多方面都涉及到了
寫的很詳細,感謝作者分享
現在什么都離不開數據分析。
特別同意
愛了愛了。非常有幫助!