從電影中看:探索性數(shù)據(jù)分析思維應用
在電影《東方快車謀殺案》中,神探波洛利用探索性分析的思維方式完美破案,而在日常工作中,我們也可以利用該思維解決難題。
現(xiàn)在已經(jīng)進入DT時代,海量、混亂的數(shù)據(jù)不斷涌來,我們需要理清頭緒,探尋數(shù)據(jù)間的內(nèi)在聯(lián)系,這就好像偵探辦案,雖然人們總形容偵探“目光犀利、嗅覺敏銳”,似乎偵探是條犬科動物。然而偵探本人通常不會僅僅靠著自己的眼睛和鼻子辦事兒。
她的做法看起來科學得多——將所有能夠搞到的證據(jù)搜集到一起,所有能拿到的數(shù)據(jù)拿到手里,然后在其中尋找規(guī)律。
在《東方快車謀殺案》中,波洛偵探完美地為我們演示了一遍如何收集證據(jù)與數(shù)據(jù),然后從中獲得洞察。在一個下著雪的深夜,一個男人離奇而死。沒有目擊證人,身上的刀疤參差不齊,就連宿在附近車廂的偵探本人也沒有在慘案發(fā)生時發(fā)現(xiàn)端倪。
不過,就像在旅途中也要保持得體裝扮一樣,波洛偵探面臨謎題,表現(xiàn)得同樣有條不紊。
首先,他挨個盤問了列車上的每一位乘客,不管對方人設是冷靜縝密、還是神經(jīng)兮兮。然后,他將這些人的語言與行為如拼拼圖一般,拼在了一起,并理出了一個時間線。在這個過程中,他不斷地思考:
- 哪些信息能支持自己的假設?
- 哪些信息互相矛盾?
- 我還需要回答什么問題?
- 還有——之后我需要做什么,才能回答這些問題?
“想來你對我這種詢問方式很不以為然?!辈鍌商綄Μ旣愓f:“你原來想的不是這種,而是英國式的。凡事都該準備停當——擺出事實,按部就班。可是小姐,我這人倒有點兒與眾不同。首先我得先見見證人,摸清他或她的脾性,然后再相應地提出問題來?!?/p>
波洛列出的問題足足有10條:
- 繡著首字母H的手帕,是誰的?
- 煙斗通條,是誰的?
- 誰穿鮮紅色、繡著龍的睡衣?
- 誰把自己偽裝成列車員,男人還是女人?
- 為什么死者的表針會指到一點一刻?
- 謀殺發(fā)生在那個時間嗎?
- 還是在那個時間之前?
- 或是之后?
- 能確信殺手不止一個人嗎?
- 死者身上的刀傷還有其它解釋嗎?
這些是否也是你的疑問?或者說,在聽過各位乘客的回答后,你是否也產(chǎn)生了一些疑問?如果答案是“yes”,恭喜你,你已經(jīng)在做探索性分析了!
EDA——探索性數(shù)據(jù)分析
探索性數(shù)據(jù)分析(EDA)是數(shù)據(jù)分析過程的第一部分。 在這個階段有幾件重要的事情要做,但歸結(jié)起來就是:
- 弄清楚數(shù)據(jù)是什么;
- 建立你想問的問題以及如何表達它們,
- 提出最好的展示和操作數(shù)據(jù)的方式,以得出重要的見解。
EDA與IDA的區(qū)別:
探索性數(shù)據(jù)分析有別于初始性數(shù)據(jù)分析(initial data analysis – IDA)。
- 初始性數(shù)據(jù)分析的聚焦點是分析鑒別統(tǒng)計模型和科研假設測試所需的條件是否達到,以保證驗證性分析的可靠性。在這個分析過程中對不符合條件的數(shù)據(jù)進行缺值填補、數(shù)據(jù)轉(zhuǎn)換、異常值舍棄等處理以增強分析的準確性。
- 探索性數(shù)據(jù)分析包含初始性數(shù)據(jù)分析,但它的出發(fā)點不僅是確定數(shù)據(jù)質(zhì)量,而且更重視從數(shù)據(jù)中發(fā)現(xiàn)數(shù)據(jù)分布的模式(Patten)和提出新的假設。
你在探索 – 尋找線索。 就像波洛做的那樣,通過定量和可視化的方法,你不僅梳理出趨勢和模式,還能發(fā)現(xiàn)偏離模型,離群值和意想不到的結(jié)果——它們也很重要。你現(xiàn)在發(fā)現(xiàn)的東西將幫助你決定提出的問題,研究領(lǐng)域,以及下一步采取的措施。
一切發(fā)現(xiàn) 符合假設的、不符合假設的,都是為了最后一步一步地走向真相
過去,在以抽樣統(tǒng)計為主導的傳統(tǒng)統(tǒng)計學中,探索性數(shù)據(jù)分析對驗證性數(shù)據(jù)分析有著支持和輔助的作用。但由于抽樣和問卷都是事先設計好的,對數(shù)據(jù)的探索性分析是有限的。到了大數(shù)據(jù)時代,海量數(shù)據(jù)從多種渠道源源不斷地涌現(xiàn)出來,已不受分析模型和研究假設的限制,如何從中找出規(guī)律、并產(chǎn)生分析模型和研究假設成為新挑戰(zhàn)。
這時候,探索性數(shù)據(jù)分析在對數(shù)據(jù)進行概括性描述、發(fā)現(xiàn)變量之間的相關(guān)性以及引導出新的假設方面大顯身手。正如美國探索性數(shù)據(jù)分析創(chuàng)始人約翰?懷爾德杜克所說:
面對那些我們堅信存在或不存在的事物時,‘探索性數(shù)據(jù)分析’代表了一種態(tài)度,一種方法手段的靈活性,更代表了人們尋求真相的強烈愿望。
CDA——驗證性數(shù)據(jù)分析
通常,偵探結(jié)案并不是故事的結(jié)束,還需要將罪犯以及罪證交給法庭,進行審判。
我們將這個“審判”的過程稱為驗證性數(shù)據(jù)分析。
驗證性數(shù)據(jù)分析是您使用傳統(tǒng)統(tǒng)計工具(例如顯著性,推斷和置信度)來評估證據(jù)的部分。
在這一點上,你真的在挑戰(zhàn)你的假設。驗證性數(shù)據(jù)分析的很大一部分就是對事物進行量化,比如,你所建立的模型的任何偏離都可能偶然發(fā)生,在什么時候需要開始質(zhì)疑你的模型呢?
CDA的內(nèi)容:
測試假設,以特定精確度產(chǎn)生估計,回歸分析和方差分析。
驗證性和探索性數(shù)據(jù)分析的使用
實際上,探索性的和驗證性的數(shù)據(jù)分析不是一個接一個地進行,而是不斷地交織在一起,幫助您創(chuàng)建最好的分(破)析(案)模(套)型(路)。
我們舉一個例子來說明實踐中的EDA與CDA。
場景:最近幾個月,流失用戶的數(shù)量一直在激增。產(chǎn)品一直在保持更新,性能也算穩(wěn)定,活動也沒停,這種流失簡直稱得上是一樁密室丟人案了。究竟發(fā)生了什么?
發(fā)現(xiàn)問題:密室丟人案,比密室殺人案更讓運營感到棘手的案件
你開始利用數(shù)據(jù)探索原因(EDA)。你調(diào)取了這些流失用戶的所有數(shù)據(jù)然后開始尋找線索。在用了各種餅柱線氣泡樹從不同角度分析了數(shù)據(jù)之后,你發(fā)現(xiàn)丟失的用戶大多都是在同一個月內(nèi)注冊的。
鎖定異常:雖然每個月注冊的用戶都有流失,但很容易看出7月的問題
經(jīng)過仔細調(diào)查,你發(fā)現(xiàn)在這個月中,雖然產(chǎn)品一直在保持更新,性能也算穩(wěn)定,活動也沒停,但是你們自己卻把常用的CRM系統(tǒng)給換了。結(jié)果,一部分客戶沒有收到產(chǎn)品的入門教程。
現(xiàn)在你產(chǎn)生了一個大(合)膽(理)的假設:這些人是因為沒有得到入門教程而流失的。要想停止這個死亡游戲,必須連夜派發(fā)入門教程大禮包!
但首先,你需要確定這個原因是正確的。根據(jù)探索性數(shù)據(jù)分析,你現(xiàn)在可以建立一個新的預測模型,以比較收到教程和沒收到教程的差異率。 這根植于驗證性數(shù)據(jù)分析。
結(jié)果顯示了兩者之間的廣泛相關(guān)性。成功破案了!
探索性數(shù)據(jù)分析和大數(shù)據(jù)
21世紀的作案團伙可以像水滴融入大海一樣藏身于龐大的數(shù)據(jù)池中。整個偵探游戲變得非常艱巨。要保證自己能夠?qū)崟r訪問所有需要的信息,讓數(shù)據(jù)跑得跟思路一樣快,讓案子破的時候“兇手”還沒跑遠——這對于銷售、運營、產(chǎn)品、財務、HR等各種工作模塊都至關(guān)重要。
為什么偵探小說這么火?
因為我們都需要知道答案,并對探索答案過程中的智力挑戰(zhàn)而感到驚心動魄。
那為什么,不讓數(shù)據(jù)偵探成為你的“第二人格”?
本文由 @數(shù)據(jù)觀 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自《東方快車謀殺案》劇照,來源于百度派
- 目前還沒評論,等你發(fā)揮!