數(shù)據(jù)分析之前知道這 7 件事,少花 80% 時(shí)間

0 評論 3701 瀏覽 15 收藏 19 分鐘

編輯導(dǎo)語:在進(jìn)行數(shù)據(jù)分析前,需要耗費(fèi)不少的時(shí)間在數(shù)據(jù)的清洗過程中。那么,有什么方法可以提高數(shù)據(jù)清洗的效率?作者通過總結(jié)自己的工作經(jīng)歷,分享了在數(shù)據(jù)分析之前你需要了解的7件事情,希望對你有所啟發(fā)。

寫在前面

在進(jìn)行數(shù)據(jù)分析之前,常常需要耗費(fèi)大量的心力在對數(shù)據(jù)的清洗過程,比如,需要針對缺失數(shù)據(jù)、重復(fù)數(shù)據(jù)或錯(cuò)誤數(shù)據(jù)等等進(jìn)行預(yù)處理。還有很多小伙伴,在沒想好想要獲取哪些數(shù)據(jù)來驗(yàn)證何種假設(shè)的情況下,就貿(mào)然開展采集工作。這些都是在進(jìn)入數(shù)據(jù)分析環(huán)節(jié)前,非常重要但很容易被忽略的問題。

如前美國首席數(shù)據(jù)科學(xué)家 DJ Patil 所說:“不過分的說:任何數(shù)據(jù)項(xiàng)目中 80% 的工作都在采集清理數(shù)據(jù)?!?/p>

為了更好的避免這類問題的出現(xiàn),在開展數(shù)據(jù)分析之前,需要圍繞在“問題的具體化描述”、“確立假設(shè)”中進(jìn)行深入的剖析,這個(gè)時(shí)期的“慢即是快”。如果無法正確地定義問題、合理地拆解問題、抓住關(guān)鍵問題,后續(xù)的環(huán)節(jié)都是徒勞。

所以,正確的問題是指引你找到可靠解決的路標(biāo),而高質(zhì)量的數(shù)據(jù)是數(shù)據(jù)分析的基石。我依據(jù)實(shí)際工作中的經(jīng)歷,梳理了數(shù)據(jù)分析前你要知道的 7 件事,希望對你有所啟發(fā)。

以下,Enjoy~

通過本文,你可以了解:

  1. 5W1H 讓問題具體化
  2. 將商業(yè)思考拆解成可量化的數(shù)字
  3. 從假設(shè)出發(fā)采集數(shù)據(jù)
  4. 什么是第一、二、三方數(shù)據(jù)?
  5. 哪些是可以直接利用的數(shù)據(jù)?
  6. 結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)有什么不同?
  7. 你采集的是好數(shù)據(jù)嗎?

一、5W1H 讓問題具體化,清晰需要采集什么數(shù)據(jù)

在所有的研究工作開始之前,厘清目標(biāo)問題是什么,這是整個(gè)研究的核心。運(yùn)用 5W1H (who -誰、when-時(shí)間、where-地點(diǎn)、what-什么事、why-為什么發(fā)生、how-如何發(fā)生),針對問題進(jìn)行提問,有助于把問題具體化。

? 某預(yù)約管理 SaaS 公司:

  • Who:客戶是誰?- 線下服務(wù)業(yè)商戶Why:商戶為什么需要?- 有服務(wù)資源配置需求
  • Where:商戶在哪里使用?- 網(wǎng)頁、商戶小程序、線下門店等
  • When:商戶使用的階段?- 商戶的生命周期
  • What:商戶使用工具來做什么事?- 管理消費(fèi)者預(yù)約動(dòng)態(tài)
  • How:商戶怎么使用?- 注冊賬號 > 授權(quán)小程序 > 上架服務(wù) > 發(fā)布小程序 > 銷售服務(wù) > 核銷服務(wù)

以「某SaaS公司今年在線預(yù)約管理產(chǎn)品續(xù)費(fèi)率下降」為背景思考應(yīng)對策略,「續(xù)費(fèi)率下降」只是問題呈現(xiàn)出來的結(jié)果,不能就這個(gè)結(jié)果設(shè)想解決方案,應(yīng)該先思考,背后造成這個(gè)結(jié)果的原因有哪些可能,以及為什么。

如果你認(rèn)為主要的原因是「商戶的員工不能迅速上手使用」,那么在經(jīng)過上面分析后,可以重新整理為「是否因?yàn)樵谏鲜蛛A段(when)缺少對商戶的使用指導(dǎo)(what),導(dǎo)致商戶不續(xù)費(fèi)?」,讓問題更加具體。

通過具體的問題,才能運(yùn)用數(shù)據(jù)分析來回答問題。當(dāng)你懷疑「缺乏使用指導(dǎo)」與「續(xù)費(fèi)率」有關(guān)時(shí),就可以去觀察和收集客戶服務(wù)或客戶成功部門,在上手階段指導(dǎo)次數(shù)、工單提交次數(shù)等指標(biāo)。

接著進(jìn)行分析比較,觀察兩者走勢:比方從折線圖觀察,是否指導(dǎo)次數(shù)增加、老客戶的續(xù)費(fèi)率也跟著增加?或者,即使指導(dǎo)次數(shù)增加,續(xù)費(fèi)率率也沒有太大差異,藉此驗(yàn)證假設(shè)是否正確。

二、將商業(yè)思考拆解成可量化的數(shù)字

數(shù)據(jù)分析的基礎(chǔ)功夫,來自于正確的問題。在提出問題時(shí),要抱持著讓「問題」更具體、明確化的精神,試著將腦海中想到的問題,拆解成可量化的信息,培養(yǎng)數(shù)字導(dǎo)向的思維。

最近續(xù)費(fèi)率下降,怎么辦?

1)最近:是哪段時(shí)期?與去年比,或與上個(gè)月、上星期比?

2)續(xù)費(fèi)率:整體續(xù)費(fèi)率,或者特定產(chǎn)品線續(xù)費(fèi)率?還是增值模塊續(xù)費(fèi)率?

3)下降:同業(yè)續(xù)費(fèi)率變化程度為何?下降幅度是多少?

4)怎么辦:哪個(gè)部門、哪個(gè)環(huán)節(jié)可以做哪些改善?

可能是商戶缺乏指導(dǎo)很難上手使用。

1)商戶:指的是多大比例的商戶?是流失的客群嗎?還是特定行業(yè)的商戶?

2)缺乏指導(dǎo):在什么階段缺乏指導(dǎo)?是缺乏圖文類型、視頻類型還是人工客服類型的指導(dǎo)?

3)很難:是和其他 SaaS 工具相比嗎?還是和預(yù)約類的工具比?還是超過 30 分鐘就算久?

4)上手使用:指的是完成服務(wù)上架?還是完成小程序發(fā)布?還是消費(fèi)者到店核銷才算上手使用?還是營銷、推廣、拓客?

三、從假設(shè)出發(fā)采集數(shù)據(jù)

“大膽假設(shè),小心求證”,是進(jìn)行數(shù)據(jù)分析研究的基本模式。很多時(shí)候,有了假設(shè)需要進(jìn)行求證的過程中,現(xiàn)有數(shù)據(jù)可能無法提供所需視角厘清問題,或者數(shù)據(jù)相對有限,需要采集新維度數(shù)據(jù)。又或者收集的樣本存在異常,不一定在一次分析就能找到其中的關(guān)聯(lián)。

哪怕做了分析后發(fā)現(xiàn)原假設(shè)與問題不存在關(guān)聯(lián),這也是一種有效的分析,畢竟你排除了一種可能,對于你進(jìn)行假設(shè)的修改,逼近核心問題都是有助益的。一次就把問題解決,需要依賴的不僅僅是專業(yè)的知識(shí)儲(chǔ)備,有的時(shí)候運(yùn)氣也是很重要的因素。

《簡單用數(shù)據(jù),做出好決策》表示,很多人以為,觀察現(xiàn)有數(shù)據(jù)就能能提出假設(shè),但最佳來源是在業(yè)務(wù)一線的人,比如,產(chǎn)品經(jīng)理、客服與銷售人員。因?yàn)樗麄兪窃跊Q策方針之下,實(shí)際行動(dòng)的人。

在進(jìn)行假設(shè)確立前,最好能號召到所有利害關(guān)系人,召開頭腦風(fēng)暴會(huì)議,分享他們認(rèn)為什么原因會(huì)造成目前的狀況,在這個(gè)階段,目標(biāo)是要產(chǎn)生出好幾個(gè)可能的假設(shè)。

四、什么是第一、二、三方數(shù)據(jù)?

在《普華永道全零售調(diào)查》報(bào)告中指出,與其他國家消費(fèi)者相比,中國消費(fèi)者更多地通過各種數(shù)字化方式與零售商進(jìn)行互動(dòng)。和其他國家的消費(fèi)者一樣的是,中國消費(fèi)者也展現(xiàn)出了非線性的消費(fèi)行為,在各種渠道之間不斷切換以尋求便利性、一致性,增加選擇面和可及性。

在復(fù)雜商業(yè)環(huán)境中,企業(yè)采集數(shù)據(jù)的方式不能像從前只記錄自己手中的數(shù)據(jù)。在原本各直營渠道的互動(dòng)數(shù)據(jù)整合、存儲(chǔ)和分析的基礎(chǔ)上,還要觀察消費(fèi)者在合作渠道中的消費(fèi)行為,以及在其他渠道中是否展現(xiàn)出對品牌的興趣,才能清楚掌握用戶畫像。更了解消費(fèi)者,才有機(jī)會(huì)對客戶進(jìn)一步細(xì)分,提供個(gè)性化解決方案。

這些類型的數(shù)據(jù),就是數(shù)據(jù)分析中常提到的第一方、第二方與第三方數(shù)據(jù)。

1)第一方數(shù)據(jù)。是企業(yè)直接從消費(fèi)者采集而來的數(shù)據(jù),此類數(shù)據(jù)具備高度精確性和相關(guān)性,但通常缺乏規(guī)模。

一般會(huì)包括客戶關(guān)系數(shù)據(jù),聯(lián)絡(luò)資料、手機(jī)號碼、電子郵箱等,也包括用戶在網(wǎng)站或應(yīng)用程序上的行為數(shù)據(jù),訪問時(shí)間、頻率與停留時(shí)間,以及社交媒體數(shù)據(jù)、客戶反饋等。

2)第二方數(shù)據(jù)。是與合作伙伴交換、彼此共用的第一方數(shù)據(jù)。此類可以彌補(bǔ)第一方數(shù)據(jù)無法獲得的信息和見解,由于數(shù)據(jù)來源多元,數(shù)據(jù)也更具備解釋力。

比如,你把產(chǎn)品上架到淘寶、京東等電商平臺(tái),你可以通過店鋪平臺(tái)提供的管理后臺(tái)觀察客戶在電商平臺(tái)上的購買數(shù)據(jù),如客戶特性、購買產(chǎn)品組合等等,以此優(yōu)化自身產(chǎn)品。簡單說就是合作對象給你提供的二手?jǐn)?shù)據(jù)。

3)第三方數(shù)據(jù)。是從外部獲得的數(shù)據(jù)來源(可以是免費(fèi)或付費(fèi)獲得),非數(shù)據(jù)原始采集者。此類數(shù)據(jù)在企業(yè)想要擴(kuò)展目標(biāo)客群時(shí),可以提供非常重要的參考意見。

一般會(huì)包括像是投放網(wǎng)絡(luò)廣告,取得潛在消費(fèi)者對品牌的關(guān)注數(shù)據(jù),購買現(xiàn)成的數(shù)據(jù)庫,或者在統(tǒng)計(jì)局或行研報(bào)告免費(fèi)下載等等。從各方采集可以補(bǔ)充第一、第二方數(shù)據(jù),但用戶畫像也相對不精準(zhǔn)。

五、哪些是我可以直接利用的數(shù)據(jù)?

現(xiàn)在物聯(lián)網(wǎng)的快速發(fā)展,很多基礎(chǔ)數(shù)據(jù)采集工作無須經(jīng)由人工,通過機(jī)器設(shè)定采集任務(wù)就可以自動(dòng)記錄,如此長時(shí)間的沉淀就會(huì)產(chǎn)生海量的數(shù)據(jù)。比如,iPhone 記錄每日 App 使用量、Wacth 記錄心率和睡眠、信用卡記錄消費(fèi)、滴滴記錄打車情況等等。

對于企業(yè)來說,可以根據(jù)自己的業(yè)務(wù)需要,進(jìn)行常規(guī)的數(shù)據(jù)自動(dòng)化采集計(jì)劃,長時(shí)間監(jiān)測消費(fèi)者的喜好和消費(fèi)行為數(shù)據(jù)。

  • 像有些商家會(huì)在門店出、入口安裝攝像頭,消費(fèi)者在進(jìn)、出店的瞬間,攝像頭就已經(jīng)及時(shí)抓拍消費(fèi)者并自動(dòng)生成一個(gè)新的 ID,記錄消費(fèi)者進(jìn)、出店的時(shí)間。
  • 同時(shí)還可以記錄消費(fèi)者進(jìn)店頻次、消費(fèi)總額、客單價(jià)、常購商品等信息。
  • 還有企業(yè)開給客戶的發(fā)票明細(xì),清楚記載消費(fèi)者的購買時(shí)間、會(huì)員等級、產(chǎn)品項(xiàng)目與類別、結(jié)賬方式等。

這類型常規(guī)數(shù)據(jù),基本可以直接使用。也可以與其他數(shù)據(jù)進(jìn)行交叉比對,洞察理解消費(fèi)者的重要信息。

另外,在《用數(shù)字做決策的思考術(shù)》一書中,將采集數(shù)據(jù)的方法分為采集世界上既存數(shù)據(jù)與世界上尚不存在的數(shù)據(jù)。搜尋既存數(shù)據(jù),可以透過網(wǎng)絡(luò)、數(shù)據(jù)庫與研究報(bào)告,再藉由具有產(chǎn)業(yè)經(jīng)驗(yàn)的人過濾值得信賴的信息。若沒有相關(guān)人員,可以參考官方機(jī)構(gòu)或?qū)W術(shù)資料,作為分析依據(jù)。

至于搜尋不存在的數(shù)據(jù),就需要透過親身觀察與詢問,像是直接觀察消費(fèi)者的購買行為、詢問消費(fèi)者對于新口味的滿意度,也可以通過焦點(diǎn)訪談、發(fā)放問卷的形式了解客戶的聲音(VoC)。

六、結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)有什么不同?

區(qū)別于采集數(shù)據(jù)的原始?xì)w屬,在數(shù)據(jù)采集到統(tǒng)一的集成數(shù)據(jù)管理平臺(tái)(DMP)后,可以采用“企業(yè)內(nèi)部和外部”、“結(jié)構(gòu)化與非結(jié)構(gòu)化” 4 種組合進(jìn)行數(shù)據(jù)類型區(qū)分,識(shí)別數(shù)據(jù)的可用性。

1)企業(yè)內(nèi)部的結(jié)構(gòu)化數(shù)據(jù)。是指企業(yè)自有、可用數(shù)值量化表現(xiàn)的數(shù)據(jù)。比如今年總營收 = 30萬、客單價(jià) = 700元/人、整體退貨率 = 7% 等等。

2)企業(yè)內(nèi)部的非結(jié)構(gòu)化數(shù)據(jù)。一般表現(xiàn)為視頻、音頻、圖片、圖像、文檔、文本等文件系統(tǒng)中的信息,屬于難以單純用數(shù)值量化表達(dá)的信息,需要經(jīng)過整理才能分門別類。比如,包含業(yè)務(wù)銷售經(jīng)驗(yàn)、客戶常見問題等等。

3)外部的結(jié)構(gòu)化數(shù)據(jù)。這些數(shù)據(jù)同樣具備用數(shù)值量化表現(xiàn),差別是企業(yè)并不直接擁有這些數(shù)據(jù)。比如,在百度投放廣告的曝光量、在知乎發(fā)布文章的閱讀量等等。

4)外部的非結(jié)構(gòu)化數(shù)據(jù)。這些數(shù)據(jù)一般以企業(yè)主體的名義在其他平臺(tái)運(yùn)營過程中產(chǎn)生。比如,在淘寶平臺(tái)上商品的評價(jià)、微博上用戶的評論、產(chǎn)品的口碑、用戶自行錄制的開箱視頻等等。

七、你收集的是好數(shù)據(jù)嗎?

在統(tǒng)計(jì)學(xué)里,數(shù)據(jù)分為內(nèi)部效度和外部效度,前者指數(shù)據(jù)能否反應(yīng)研究領(lǐng)域的狀況,即是否具有內(nèi)部代表性;后者是指能否把結(jié)果推論到其他人或其他環(huán)境中,也就是研究結(jié)果的普遍性。唯有數(shù)據(jù)具有內(nèi)外部效度,才代表數(shù)據(jù)采集過程正確,而且適用在其他領(lǐng)域。

1) 缺乏內(nèi)部效度

新品發(fā)布時(shí),只調(diào)查營銷部門的想法。

應(yīng)調(diào)查各業(yè)務(wù)單位,并依照部門人數(shù)比例,隨機(jī)抽取調(diào)查意見。

2)缺乏外部效度

新品上市后無法滿足客戶期待。

留意在內(nèi)部調(diào)查時(shí),是否具備足夠多元性。

數(shù)據(jù)不怕少,主要怕不好。

在日常收集數(shù)據(jù)的過程中,有時(shí)候需要數(shù)據(jù)具備時(shí)效性,過時(shí)的數(shù)據(jù)無法驗(yàn)證新時(shí)期的問題。有時(shí)候會(huì)因?yàn)殡[私問題或者收集渠道問題,會(huì)收集到不完整的數(shù)據(jù),條件允許就需要想辦法補(bǔ)全。

對于量性可以采取策略性補(bǔ)值,比如,平均數(shù)。如果數(shù)據(jù)樣本足夠大,亦可選擇直接刪除。但在數(shù)據(jù)樣本規(guī)模小,且屬于稀缺數(shù)據(jù)的情況下,就要想盡一些辦法利用。

還有采集到不規(guī)則或異質(zhì)性的數(shù)據(jù)時(shí),需要謹(jǐn)慎甄別,先從采集統(tǒng)計(jì)口徑切入,了解具體數(shù)據(jù)的定義和計(jì)算方法,要不結(jié)果會(huì)產(chǎn)生極大的差異,導(dǎo)致決策失誤。

寫在最后

在數(shù)據(jù)分析的語境中,保持客觀、批判性的視角是開始工作的必要條件。通過找到正確的問題,恰當(dāng)?shù)乇硎鰡栴}、理解這些結(jié)果與業(yè)務(wù)的關(guān)系以及推導(dǎo)結(jié)論的研究過程和假設(shè),是落地分析工作的充分條件。

藉由數(shù)據(jù)采集前多方面保障數(shù)據(jù)的真實(shí)性、有效性、時(shí)效性和一致性,可以在真正進(jìn)入分析階段時(shí),有更大可能性找到問題表征背后的“推手”。

還是那句話,前期的“慢即是快”,在數(shù)據(jù)分析之前,多思考,不厭其煩的假設(shè)、驗(yàn)證、修正,自然會(huì)找到數(shù)字背后真正的意義。

所以,開始數(shù)據(jù)分析前,先問問自己:

  1. 我清楚理解問題了嗎?
  2. ?我把問題拆解成可量化的數(shù)字了嗎?
  3. ?我想要驗(yàn)證哪些假設(shè)?
  4. ?我可以從哪里獲取數(shù)據(jù)?
  5. ?我可以怎么歸類數(shù)據(jù)?
  6. ?我可以怎么處理結(jié)構(gòu)化程度不同的數(shù)據(jù)?
  7. ?我采集的數(shù)據(jù)是好數(shù)據(jù)嗎?

#專欄作家#

龍國富,公眾號:龍國富,人人都是產(chǎn)品經(jīng)理專欄作家,人因工程碩士。致力于終身學(xué)習(xí)和自我提升,分享用戶研究、客戶體驗(yàn)、服務(wù)科學(xué)等領(lǐng)域資訊,觀點(diǎn)和個(gè)人見解。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)授權(quán),禁止轉(zhuǎn)載。

題圖來自Unsplash,基于CC0協(xié)議。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!