以【丁香醫生新冠肺炎疫情地圖】為例,拆解數據分析5步法

1 評論 13724 瀏覽 50 收藏 11 分鐘

從疫情爆發到現在,你是不是也跟我一樣,每天起床都要點開丁香醫生,看一下疫情最新情況?截止現在,丁香醫生疫情地圖被瀏覽27億次。如此火爆的背后,丁香醫生的項目有沒有借鑒性呢?本文以疫情地圖為例,來講講數據分析師做項目的思路。

我將項目分析總結為五步法:數據收集、定義問題、數據清洗、數據分析、輸出報告。今天我將對每一步進行業務上的拆解。

以【丁香醫生新冠肺炎疫情地圖】為例,拆解數據分析5步法

數據分析五步法

一、定義問題

分析的重中之重是定義問題。這個項目的需求是什么?想達到的效果是什么?

丁香醫生想做一款實時更新疫情數據的產品,方便用戶了解實時疫情動態。

那用戶是誰?用戶最關心什么?

丁香醫生的用戶是老百姓,咱老百姓最關心的呢,是今天又確診多少人,疑似多少人,死亡多少人,以及治愈多少人,疫情是不是往好的方向發展……

依照《精益數據分析》提出的“第一關鍵指標法”,我們提煉出關鍵指標:確診人數、疑似人數、死亡人數、治愈人數。

以【丁香醫生新冠肺炎疫情地圖】為例,拆解數據分析5步法

關鍵指標

同時,咱老百姓除了想知道整個疫情發展,也很關心自己城市的情況,因此將關鍵指標按省份、城市細分。疫情地圖就包含了全國確診人數熱力圖,各省、各市的關鍵指標。

以【丁香醫生新冠肺炎疫情地圖】為例,拆解數據分析5步法

各省份、城市關鍵指標

二、數據采集

數據真實可信是數據分析的前提。丁香醫生的數據來源于國家衛健委、各省市衛健委、各省市政府、港澳臺等官方渠道,來源權威。

咱們數據分析師日常怎么收集數據呢?

  • 內部數據:天天需要。公司把數據存放在自家服務器或阿里云等第三方平臺,通過SQL獲取。
  • 外部數據:也很重要,較難獲取??梢杂脟医y計局、中國人民銀行等公布的數據;使用第三方數據庫,如萬德、國泰安、銳思等數據庫下載數據;或使用爬蟲,爬到自己想要的數據。

三、數據清洗

數據清洗幾乎占用數據分析師80%的時間。在這里,丁香醫生主要涉及去重口徑一致。

(1)去重

上面收集來的數據,各個渠道會不會重復統計呢?比如國家衛健委、省衛健委和省政府公布的數據中,肯定有重復部分,需要我們去掉重復值。

丁香醫生也曾重復統計過,導致新增確診人數變多,不過很快糾正了。

(2)口徑一致

報表上線后,口徑變化是大忌。2月12日,確診口徑由單一核酸檢測,新加入臨床診斷,確診人數大增,一下多了1萬多人。

如果是數據分析師隨意調整統計口徑,那就要背鍋走人了;如果是老板要改口徑,數據分析師就得想想該怎么妥善處理了。

丁香醫生是怎么做的呢?

當日確診人數爆增,丁香醫生用虛線表示增長,并且右上方備注“臨床診斷病例的影響”。這樣做既反映了真實情況,也解釋了因統計口徑變化,導致數據異常增長。

以【丁香醫生新冠肺炎疫情地圖】為例,拆解數據分析5步法

口徑變化導致的激增

四、數據分析

數據收集和清洗是基本能力,數據分析才是核心競爭力。

我們在思考用什么指標來做分析時,可以參考《精益數據分析》里,關于“什么是好的數據指標”的總結:

  • 好的數據指標是比較性的(較昨日、新增疑似、新增確診……);
  • 好的數據指標是簡單易懂的(確診、死亡、治愈……);
  • 好的數據指標是一個比率(病死率=死亡人數/確診人數、治愈率=治愈人數/確診人數);
  • 好的數據指標會改變行為(通過新增確診走勢,了解疫情是否正在緩解,指定方針)。

由于丁香醫生疫情地圖產品,只向大家展現客觀數據,沒有輸出具體的主觀結論。但我們仍然可以根據丁香醫生的指標的和圖表,對疫情發展情況作出判斷。

1. 趨勢變化

由新增趨勢圖,可以看到,新增確診病例在2月12日修改統計口徑后,逐漸下降,新增疑似病例在2月5日后逐漸下降。

由現存疑似、確診趨勢圖,可以看到,現存確診病例從1月19日-2月12日,呈陡峭的直線上升,在2月16日到達峰值以后,逐漸下降,現存疑似在2月8日到達峰值后逐漸下降。

以【丁香醫生新冠肺炎疫情地圖】為例,拆解數據分析5步法

全國疫情新增、現存趨勢圖

因為湖北是最嚴重的受災區,會嚴重拉高其他省市的數據,因此需要特殊對待。

湖北新增確診病例2月12日暴增1.5萬以后,逐漸下跌,最近幾日都維持在新增400人的水平,非湖北新增確診病例在2月3日之前劇烈增長,2月3日武漢及周邊城市封城、大家不外出聚集以后,逐漸下降,最近幾日維持在兩位數甚至個位數。

以【丁香醫生新冠肺炎疫情地圖】為例,拆解數據分析5步法

湖北、非湖北新增趨勢圖

2. 比率

知道了每天的新增情況,咱老百姓還關心,這個新型冠狀肺炎厲不厲害,死亡率高不高???

丁香醫生針對這一需求,又設計了病死率趨勢圖和治愈率趨勢圖。同樣由于湖北是集中爆發區,將湖北和非湖北分別對待。

以【丁香醫生新冠肺炎疫情地圖】為例,拆解數據分析5步法

病死率、治愈率趨勢圖

五、輸出報告

終于到了輸出環節,丁香醫生最新的版本做得非常好,我們以后做可視化產品時,完全可以借鑒板塊的劃分。

全國關鍵指標、較昨日變化情況、分省市統計關鍵指標、變化趨勢、病死率和治愈率等。老百姓關注的點幾乎都涵蓋在里面。

丁香醫生疫情地圖版本也是一步步迭代來,我們來看一下修改前,和修改后的對比圖。

以【丁香醫生新冠肺炎疫情地圖】為例,拆解數據分析5步法

修改前后對比圖1,增加了更多指標和環比數據

初版地圖,只有當日累計數值,修改后增加了“較昨日”的變化數據;初版只包含確診、疑似、死亡和治愈4個指標,修改后增加了現存確診、現存疑似、現存重癥等指標。

以【丁香醫生新冠肺炎疫情地圖】為例,拆解數據分析5步法

修改前后對比圖2,數據表格化,維度進一步細分

修改前,按省份的關鍵指標沒有細分到城市,我們其實更關心自己城市的數據。修改后采用折疊的形式,閱讀舒適度非常好。

以【丁香醫生新冠肺炎疫情地圖】為例,拆解數據分析5步法

修改前后對比圖3,不同數量級指標分圖展示

初版將確診、疑似、死亡和治愈放到一起,由于確診和死亡人數不在一個數量級,導致死亡人數的趨勢無法直觀表達出來,修改后將新增、現存、死亡和治愈分別列出,更能各自反映變化趨勢。

報告首先呈現的一定是大家最關心的結論(確診、疑似、死亡、治愈),其次是對結果的拆解分析,包含指標的拆解(現存確診=昨日確診+新增確診-昨日死亡-昨日治愈)維度(按省市拆關鍵指標)的拆分兩方面,最后才可能加上一些個人分析(疫情什么時候會變好)。

本文總結

“疫情地圖案例”基本符合數據分析五步法的套路。

數據分析一定要在數據準確的基礎上進行,數據分析=80%清洗+20%分析。

從權健到疫情地圖,丁香醫生抓熱點聲名大噪的故事值得小伙伴借鑒。

初版的體系搭建、報告輸出、可視化展示都是不成熟的,需要進行多輪迭代。

 

作者:小曾曾; 公眾號:曾哥數據分析

本文由 @小曾曾 原創發布于人人都是產品經理。未經許可,禁止轉載

題圖來自Unsplash,基于CC0協議

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 先收藏

    回復