以【丁香醫生新冠肺炎疫情地圖】為例,拆解數據分析5步法
從疫情爆發到現在,你是不是也跟我一樣,每天起床都要點開丁香醫生,看一下疫情最新情況?截止現在,丁香醫生疫情地圖被瀏覽27億次。如此火爆的背后,丁香醫生的項目有沒有借鑒性呢?本文以疫情地圖為例,來講講數據分析師做項目的思路。
我將項目分析總結為五步法:數據收集、定義問題、數據清洗、數據分析、輸出報告。今天我將對每一步進行業務上的拆解。
數據分析五步法
一、定義問題
分析的重中之重是定義問題。這個項目的需求是什么?想達到的效果是什么?
丁香醫生想做一款實時更新疫情數據的產品,方便用戶了解實時疫情動態。
那用戶是誰?用戶最關心什么?
丁香醫生的用戶是老百姓,咱老百姓最關心的呢,是今天又確診多少人,疑似多少人,死亡多少人,以及治愈多少人,疫情是不是往好的方向發展……
依照《精益數據分析》提出的“第一關鍵指標法”,我們提煉出關鍵指標:確診人數、疑似人數、死亡人數、治愈人數。
關鍵指標
同時,咱老百姓除了想知道整個疫情發展,也很關心自己城市的情況,因此將關鍵指標按省份、城市細分。疫情地圖就包含了全國確診人數熱力圖,各省、各市的關鍵指標。
各省份、城市關鍵指標
二、數據采集
數據真實可信是數據分析的前提。丁香醫生的數據來源于國家衛健委、各省市衛健委、各省市政府、港澳臺等官方渠道,來源權威。
咱們數據分析師日常怎么收集數據呢?
- 內部數據:天天需要。公司把數據存放在自家服務器或阿里云等第三方平臺,通過SQL獲取。
- 外部數據:也很重要,較難獲取??梢杂脟医y計局、中國人民銀行等公布的數據;使用第三方數據庫,如萬德、國泰安、銳思等數據庫下載數據;或使用爬蟲,爬到自己想要的數據。
三、數據清洗
數據清洗幾乎占用數據分析師80%的時間。在這里,丁香醫生主要涉及去重和口徑一致。
(1)去重
上面收集來的數據,各個渠道會不會重復統計呢?比如國家衛健委、省衛健委和省政府公布的數據中,肯定有重復部分,需要我們去掉重復值。
丁香醫生也曾重復統計過,導致新增確診人數變多,不過很快糾正了。
(2)口徑一致
報表上線后,口徑變化是大忌。2月12日,確診口徑由單一核酸檢測,新加入臨床診斷,確診人數大增,一下多了1萬多人。
如果是數據分析師隨意調整統計口徑,那就要背鍋走人了;如果是老板要改口徑,數據分析師就得想想該怎么妥善處理了。
丁香醫生是怎么做的呢?
當日確診人數爆增,丁香醫生用虛線表示增長,并且右上方備注“臨床診斷病例的影響”。這樣做既反映了真實情況,也解釋了因統計口徑變化,導致數據異常增長。
口徑變化導致的激增
四、數據分析
數據收集和清洗是基本能力,數據分析才是核心競爭力。
我們在思考用什么指標來做分析時,可以參考《精益數據分析》里,關于“什么是好的數據指標”的總結:
- 好的數據指標是比較性的(較昨日、新增疑似、新增確診……);
- 好的數據指標是簡單易懂的(確診、死亡、治愈……);
- 好的數據指標是一個比率(病死率=死亡人數/確診人數、治愈率=治愈人數/確診人數);
- 好的數據指標會改變行為(通過新增確診走勢,了解疫情是否正在緩解,指定方針)。
由于丁香醫生疫情地圖產品,只向大家展現客觀數據,沒有輸出具體的主觀結論。但我們仍然可以根據丁香醫生的指標的和圖表,對疫情發展情況作出判斷。
1. 趨勢變化
由新增趨勢圖,可以看到,新增確診病例在2月12日修改統計口徑后,逐漸下降,新增疑似病例在2月5日后逐漸下降。
由現存疑似、確診趨勢圖,可以看到,現存確診病例從1月19日-2月12日,呈陡峭的直線上升,在2月16日到達峰值以后,逐漸下降,現存疑似在2月8日到達峰值后逐漸下降。
全國疫情新增、現存趨勢圖
因為湖北是最嚴重的受災區,會嚴重拉高其他省市的數據,因此需要特殊對待。
湖北新增確診病例2月12日暴增1.5萬以后,逐漸下跌,最近幾日都維持在新增400人的水平,非湖北新增確診病例在2月3日之前劇烈增長,2月3日武漢及周邊城市封城、大家不外出聚集以后,逐漸下降,最近幾日維持在兩位數甚至個位數。
湖北、非湖北新增趨勢圖
2. 比率
知道了每天的新增情況,咱老百姓還關心,這個新型冠狀肺炎厲不厲害,死亡率高不高???
丁香醫生針對這一需求,又設計了病死率趨勢圖和治愈率趨勢圖。同樣由于湖北是集中爆發區,將湖北和非湖北分別對待。
病死率、治愈率趨勢圖
五、輸出報告
終于到了輸出環節,丁香醫生最新的版本做得非常好,我們以后做可視化產品時,完全可以借鑒板塊的劃分。
全國關鍵指標、較昨日變化情況、分省市統計關鍵指標、變化趨勢、病死率和治愈率等。老百姓關注的點幾乎都涵蓋在里面。
丁香醫生疫情地圖版本也是一步步迭代來,我們來看一下修改前,和修改后的對比圖。
修改前后對比圖1,增加了更多指標和環比數據
初版地圖,只有當日累計數值,修改后增加了“較昨日”的變化數據;初版只包含確診、疑似、死亡和治愈4個指標,修改后增加了現存確診、現存疑似、現存重癥等指標。
修改前后對比圖2,數據表格化,維度進一步細分
修改前,按省份的關鍵指標沒有細分到城市,我們其實更關心自己城市的數據。修改后采用折疊的形式,閱讀舒適度非常好。
修改前后對比圖3,不同數量級指標分圖展示
初版將確診、疑似、死亡和治愈放到一起,由于確診和死亡人數不在一個數量級,導致死亡人數的趨勢無法直觀表達出來,修改后將新增、現存、死亡和治愈分別列出,更能各自反映變化趨勢。
報告首先呈現的一定是大家最關心的結論(確診、疑似、死亡、治愈),其次是對結果的拆解分析,包含指標的拆解(現存確診=昨日確診+新增確診-昨日死亡-昨日治愈)和維度(按省市拆關鍵指標)的拆分兩方面,最后才可能加上一些個人分析(疫情什么時候會變好)。
本文總結
“疫情地圖案例”基本符合數據分析五步法的套路。
數據分析一定要在數據準確的基礎上進行,數據分析=80%清洗+20%分析。
從權健到疫情地圖,丁香醫生抓熱點聲名大噪的故事值得小伙伴借鑒。
初版的體系搭建、報告輸出、可視化展示都是不成熟的,需要進行多輪迭代。
作者:小曾曾; 公眾號:曾哥數據分析
本文由 @小曾曾 原創發布于人人都是產品經理。未經許可,禁止轉載
題圖來自Unsplash,基于CC0協議
先收藏