大數(shù)據(jù)分析,到底在分析什么?

8 評論 12658 瀏覽 46 收藏 13 分鐘

編輯導語:“大數(shù)據(jù)”一詞相信大家已經(jīng)耳熟能詳,然而,你真的了解什么是大數(shù)據(jù)、什么是大數(shù)據(jù)分析嗎?若想了解什么是大數(shù)據(jù)分析,你需要深入業(yè)務(wù)流程,對數(shù)據(jù)如何采集有所了解。本篇文章里,作者對大數(shù)據(jù)分析一事做了解讀,一起來看一下。

“大數(shù)據(jù)”仨字已經(jīng)被喊爛了,“大數(shù)據(jù)分析”也經(jīng)常被人提起??傻降渍ν耆恰按髷?shù)據(jù)分析”?為啥大家喊得很多,平時工作中很少感受得到?今天系統(tǒng)講解一下。

一、普通人理解的“大數(shù)據(jù)”

普通人理解的大數(shù)據(jù)可謂千奇百怪,比如:

  1. 一個excel文件 200M,多大的數(shù)據(jù)呀!
  2. 我國人口14億,這個數(shù)據(jù)好大呀!
  3. 臥槽,我剛看了車,就有4S店推廣電話,肯定收集了我的大數(shù)據(jù)。
  4. ……

這些千奇百怪的理解,都是來自對“數(shù)據(jù)”本身不夠了解導致的。想整明白“大數(shù)據(jù)”真正的含義,得從數(shù)據(jù)是從哪里來的講起。

二、先理解“小數(shù)據(jù)”,再談“大數(shù)據(jù)”

最原始的數(shù)據(jù)采集方式就是:問卷。由專門的調(diào)查人員,借助一張張調(diào)查問卷,通過現(xiàn)場詢問、測量等方式獲得數(shù)據(jù)。這種方法已經(jīng)沿用了400多年,經(jīng)典的統(tǒng)計學、管理學理論都是建立在此之上的(如下圖)。

大數(shù)據(jù)分析,到底分析了啥?

小數(shù)據(jù)有沒用?有用!非常有用!

能采集到某個地區(qū)的數(shù)據(jù),代表著政府對這個地區(qū)有統(tǒng)治力。能采集到越多的數(shù)據(jù),中央就能掌握地方情況,從而加強管理。數(shù)據(jù)是如此重要,以至于歷史上很長一段時間,統(tǒng)計任務(wù)歸屬于政府、軍隊、情報機關(guān)。我國的第一家調(diào)查公司還是在90年代初,在寶潔強烈要求下成立的。

但是,調(diào)研做法有三個明顯的問題:

  1. 非常耗費人力。訪問員、督導、審核、錄入、數(shù)據(jù)處理……都是人。
  2. 非常耗費時間。設(shè)計問卷、填寫、回收、都是時間。
  3. 準確度低?,F(xiàn)場測量的數(shù)據(jù)會相對準,但口頭問回來的大部分都不準。

大數(shù)據(jù)分析,到底分析了啥?

這些問題,導致了問卷時代的數(shù)據(jù)采集,只能有抽樣式的,不能是全量采集。也因此衍生出了專門的抽樣理論和方法。但無論數(shù)據(jù)方法怎么改進,在業(yè)務(wù)上,抽樣,始終是一個難以逾越的梗阻。決策者總會覺得:

  1. 是不是樣本量太少;
  2. 是不是代表性不夠;
  3. 沒有覆蓋的樣本是不是真的一致。

只要是抽樣數(shù)據(jù),就一定會被質(zhì)疑,就總是充滿懷疑。這也是最初“小數(shù)據(jù)”的說法來源,后續(xù)所有“大數(shù)據(jù)”其實都是圍繞“小數(shù)據(jù)”問題而來。

1. 數(shù)據(jù)變大第一步:系統(tǒng)采集

數(shù)據(jù)從小變大的第一步,從系統(tǒng)采集開始。比如企業(yè)擴大規(guī)模,要在各地建連鎖店,第一步做得就是裝POS機,把交易數(shù)據(jù)采集進來,替代紙質(zhì)訂貨單/出貨單。此時想了解銷售數(shù)據(jù),是可以基于POS機收集的數(shù)據(jù)全量查看的(如下圖)。

大數(shù)據(jù)分析,到底分析了啥?

從抽樣數(shù)據(jù)到全量數(shù)據(jù),是一個質(zhì)的變化。基于全量數(shù)據(jù),可以直接管理到各個終端門店,直接基于數(shù)據(jù)作出經(jīng)營決策。因此大部分企業(yè)的銷售分析、經(jīng)營分析、業(yè)務(wù)分析體系,都是在此基礎(chǔ)之上建立起來的(如下圖)。

大數(shù)據(jù)分析,到底分析了啥?

但是這個階段的局限也是很明顯的:POS機只能記錄交易結(jié)果,對過程一概不知。誰在買,買了多少,為啥買,通通不清楚。

這個階段的分析,是典型的知其然,不知其所以然的分析,大部分分析只能通過成交結(jié)果去猜。如果只有這個階段的數(shù)據(jù),想做深入分析,還是得依靠調(diào)研。比如傳統(tǒng)企業(yè)想了解門店成交流程,會做門店調(diào)查,研究消費者在門店的動線,詢問消費者體驗。

2. 數(shù)據(jù)變大第二步:主動采集

有了系統(tǒng)采集以后,大家自然地會想:除了交易數(shù)據(jù),其他數(shù)據(jù)也能通過系統(tǒng)化采集。比如最簡單的形式:讓用戶自己交身份證,通過圖像識別錄入。這樣既能采集到用戶數(shù)據(jù),又能避免手動填寫的錯誤。

但是問題來了:憑啥要交身份證給你呀!于是傳統(tǒng)采集,只有銀行、航空、通訊等有國家背景+法律規(guī)范要求的地方,才能相對準確地采集這些真實數(shù)據(jù)。

大數(shù)據(jù)分析,到底分析了啥?

不過這些困難并沒有阻擋住企業(yè)采集信息的熱情。常見的手段,比如:勾引用戶辦會員卡,給生日禮遇讓用戶填寫生日。用戶完成信息給積分獎勵之類。更激進的,甚至有常識在門店裝人臉識別、裝眼動儀跟蹤設(shè)備來采集數(shù)據(jù)(當然,成本很高)。

為什么企業(yè)會孜孜不倦追求這些數(shù)據(jù),因為這些數(shù)據(jù)真的有用。至少能把數(shù)據(jù)具體到一個人的身上,能識別出誰是高端用戶,誰是沉睡用戶,從而精細化運作(如下圖)。

大數(shù)據(jù)分析,到底分析了啥?

真正低成本的、解決采集消費者行為數(shù)據(jù)的問題,還得靠互聯(lián)網(wǎng)產(chǎn)品。

3. 數(shù)據(jù)變大第三步:行為加入

互聯(lián)網(wǎng)產(chǎn)品的最大優(yōu)勢,在于App/小程序/H5本身就是數(shù)字化產(chǎn)品。此時不但有條件記錄到用戶的點擊、登錄等行為數(shù)據(jù),而且能將用戶ID、手機號等信息整合成統(tǒng)一ID,效率比依賴線下紙質(zhì)單張申請的流程強無數(shù)倍。

還能將視頻、圖片、文章等內(nèi)容打標簽,通過用戶點擊、轉(zhuǎn)發(fā)次數(shù),瀏覽時長,反推用戶需求。對于經(jīng)歷過傳統(tǒng)企業(yè)數(shù)據(jù)的人來說,互聯(lián)網(wǎng)產(chǎn)品的數(shù)據(jù)簡直就是鳥槍換炮。

相較之傳統(tǒng)的會員基礎(chǔ)信息、消費流水數(shù)據(jù),用戶行為數(shù)據(jù)量特別、特別的大,大家想想自己在淘寶逛多久才買一件東西就知道了。可能之前幾百次點擊瀏覽,最后才有一單交易。

因此,需要專門的大數(shù)據(jù)架構(gòu)來支持這些數(shù)據(jù)的存儲和計算。狹義上的大數(shù)據(jù)技術(shù),特指對大量的用戶行為數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)的存儲和計算。

有了這些數(shù)據(jù),才有現(xiàn)在我們流行的互聯(lián)網(wǎng)分析方法,比如漏斗分析法(如下圖)。

大數(shù)據(jù)分析,到底分析了啥?

基于這些基礎(chǔ)數(shù)據(jù)采集,還能延伸出更多數(shù)據(jù)應(yīng)用,比如:

  1. 模型類:行為預測、推薦算法;
  2. 測試類:產(chǎn)品ABtest;
  3. 畫像類:用戶畫像。

大數(shù)據(jù)分析,到底分析了啥?

雖然這些方法,基于交易數(shù)據(jù)也能做,但是數(shù)據(jù)量多寡,直接決定了結(jié)果準確度。從而影響到業(yè)務(wù)端使用。在傳統(tǒng)時代,只有銀行、運營商、航空公司獨享的分析方法,成為現(xiàn)在互聯(lián)網(wǎng)公司的標配。

然而即使這樣,既然有一些問題不能解決:

  • 用戶數(shù)據(jù)分散在若干平臺,導致單一平臺數(shù)據(jù)不足;
  • 用戶心理無法直接反應(yīng)為數(shù)據(jù),沖動型行為會干擾正常數(shù)據(jù)判斷;
  • 信息安全法規(guī)要求越發(fā)嚴格,對數(shù)據(jù)采集/使用限制在增多因此,如何合法合規(guī)、持續(xù)利用大數(shù)據(jù)資源,依然是今天一個重要議題。

三、上不了臺面的“變大”方法

當然,還有一些灰色/黑色的方法,讓數(shù)據(jù)變大

  1. 直接從“有數(shù)據(jù)”的人手上,買數(shù)據(jù)!
  2. 爬蟲、撞庫,硬撈用戶數(shù)據(jù)。
  3. 通過設(shè)備,默默收集用戶數(shù)據(jù)。

這就是各種騷擾電話、垃圾短信的源頭。當然,隨著國家對信息安全保護要求越來越嚴格,這些玩意生存空間也是逐步被壓縮,所以不談也罷。

四、“大數(shù)據(jù)有啥用”的終極答案

縱觀數(shù)據(jù)從小到大的整個過程可以看出:數(shù)據(jù)從來都有用。即使最簡單、最不準的數(shù)據(jù),也能反應(yīng)管理上的問題。因此決策者們對于數(shù)據(jù)的追求,永遠是孜孜不倦的,永遠是不滿足的(如下圖)。

大數(shù)據(jù)分析,到底分析了啥?

那么,為什么還有這么多人在問“大數(shù)據(jù)有啥用”呢?

因為并非所有人都理解“數(shù)據(jù)”的用途,別說大數(shù)據(jù)了,小數(shù)據(jù)丫也照樣不會用

截止到2021年,依然有人是拍腦袋決策,拍胸脯保證;依然有人沉迷于“老夫從業(yè)十年,我說的就是對的”;依然有人覺得大數(shù)據(jù)包治百病,代碼一敲,鈔票從電腦屏幕里噴薄而出;依然有人迷信“底層邏輯”“核心思維”,苦練內(nèi)功心法。

總之,想用好數(shù)據(jù),就得深入業(yè)務(wù)流程,具體了解數(shù)據(jù)采集方式,這樣才能讀懂數(shù)據(jù)背后的業(yè)務(wù)含義,才能把自己面臨的具體問題轉(zhuǎn)化為數(shù)據(jù)問題,才能解出正確答案。

大數(shù)據(jù)分析,到底分析了啥?

采集和計算數(shù)據(jù),是一門科學。

應(yīng)用數(shù)據(jù)產(chǎn)生價值,是一種藝術(shù)。

差別大致如此。

#專欄作家#

接地氣的陳老師,微信公眾號:接地氣學堂,人人都是產(chǎn)品經(jīng)理專欄作家。資深咨詢顧問,在互聯(lián)網(wǎng),金融,快消,零售,耐用,美容等15個行業(yè)有豐富數(shù)據(jù)相關(guān)經(jīng)驗。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于CC0協(xié)議。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 有了極低的數(shù)據(jù)采集成本才有了后面的一切,要采集種田的行為數(shù)據(jù)和農(nóng)作物的成長數(shù)據(jù)、采集挖礦的行為數(shù)據(jù)和礦山的安全數(shù)據(jù)都要比互聯(lián)網(wǎng)采集數(shù)據(jù)難得多,所以傳統(tǒng)行業(yè)數(shù)字化首先要考慮數(shù)據(jù)采集成本,要平衡數(shù)據(jù)能產(chǎn)生的價值和采集成本,而不像互聯(lián)網(wǎng)只要考慮如何用好數(shù)據(jù)。

    來自北京 回復
  2. 好文章。發(fā)個評論記錄一下看過的。

    回復
  3. 老師為我們梳理了大數(shù)據(jù)到底在做啥,很接地氣哈哈哈哈哈哈

    來自陜西 回復
  4. 結(jié)果分析,過程分析,需求分析

    回復
  5. 那些“上不了臺面”讓數(shù)據(jù)變大的手段太惡心人了。果然是互聯(lián)網(wǎng)時代無隱私。

    來自四川 回復
  6. 看懂數(shù)據(jù)背后的邏輯很重要,如何讓數(shù)據(jù)產(chǎn)生價值也很重要。

    來自四川 回復
  7. 雖然但是,那些非法收集用戶數(shù)據(jù)的應(yīng)用真的就很無語。

    來自廣東 回復
  8. 讀了這篇文章,算是對“大數(shù)據(jù)分析”這一概念有了系統(tǒng)地了解哈哈。

    來自江蘇 回復