冰與火之歌:數(shù)據(jù)分析的前世今生(二)

4 評(píng)論 20350 瀏覽 84 收藏 17 分鐘

無論是傳統(tǒng)的統(tǒng)計(jì)學(xué)分析,還是時(shí)髦的大數(shù)據(jù)分析,它們的本質(zhì)都是一脈相承的:對(duì)數(shù)據(jù)價(jià)值的挖掘與探索。只有在長(zhǎng)期的實(shí)踐中不斷培養(yǎng)對(duì)數(shù)據(jù)的敏感性,不斷努力向前,你才能成為一名優(yōu)秀的數(shù)據(jù)分析師/產(chǎn)品運(yùn)營(yíng)/產(chǎn)品經(jīng)理。

2017年5月27日,浙江烏鎮(zhèn),人機(jī)對(duì)弈。世界第一的柯潔在顫抖,他皺著眉,仿佛聽到眼前黑白子之間刀來劍往的殺伐之聲。俄而,他嘆口氣,撿兩枚旗子丟到棋盤上,認(rèn)輸了。這個(gè)身穿黑衣的青年,狂傲不羈的天才,躬身站起,望了眼兵敗如山倒的棋局,似乎又有些釋然。沒有驚喜,沒有奇跡,當(dāng)圍棋上帝AlphaGo一騎絕塵時(shí),他明白自己也走到十字路口上。

圍棋,是一個(gè)靠直覺而非計(jì)算的游戲,而AlphaGo是在嘗試“用計(jì)算機(jī)擬合直覺”。具體說就是,通過深度神經(jīng)網(wǎng)絡(luò),模仿人類下圍棋這種直覺行為。而深度神經(jīng)網(wǎng)絡(luò)這種算法的實(shí)現(xiàn),則依賴于對(duì)海量數(shù)據(jù)的挖掘與分析,d也就是我們接下來要講的大數(shù)據(jù)分析。

大數(shù)據(jù)分析的優(yōu)點(diǎn)

在講大數(shù)據(jù)前,讓我們回顧上一篇冰與火之歌:數(shù)據(jù)分析的前世今生(一)文末提到,基于統(tǒng)計(jì)學(xué)的數(shù)據(jù)分析有一些局限性:

  • 對(duì)數(shù)據(jù)的精確度要求很高
  • 很難做到實(shí)時(shí)分析
  • 無法回答數(shù)據(jù)搜集時(shí)未考慮的問題

而大數(shù)據(jù)能近乎完美地解決上述問題,解決的原因,我們可以從大數(shù)據(jù)的三個(gè)特征進(jìn)行分析:

海量數(shù)據(jù)規(guī)模

舉個(gè)不太嚴(yán)謹(jǐn)?shù)睦?,假如我們要預(yù)測(cè)2017年北京高考數(shù)學(xué)平均分,方法是找出歷年北京高考數(shù)學(xué)平均分與試卷難易度的關(guān)系,再根據(jù)2017北京數(shù)學(xué)卷的難易度,算出平均分。

如果是統(tǒng)計(jì)學(xué),因?yàn)闊o法處理海量的數(shù)據(jù),則只能采用隨機(jī)采樣的原則,從每年的學(xué)生中隨機(jī)抽取100人作為樣本。假設(shè)有1個(gè)人的成績(jī)錄入出錯(cuò),則誤差為0.01。

如果是大數(shù)據(jù),則將北京的6萬考生全部作為處理數(shù)據(jù),假設(shè)有100個(gè)人成績(jī)錄入出錯(cuò),則誤差為0.002。

從上面這個(gè)例子可以看出,統(tǒng)計(jì)學(xué)由于數(shù)據(jù)量小,一顆耗子屎打亂一鍋粥。而大數(shù)據(jù)的數(shù)據(jù)規(guī)模如此龐大,所以允許數(shù)據(jù)有一定誤差。

動(dòng)態(tài)數(shù)據(jù)體系

大數(shù)據(jù)的采集、存儲(chǔ)、處理都是實(shí)時(shí)進(jìn)行的,所以能實(shí)時(shí)分析。而統(tǒng)計(jì)學(xué)的數(shù)據(jù)分析,則依賴于確定問題,再根據(jù)問題去搜集數(shù)據(jù),數(shù)據(jù)的搜集無法做到實(shí)時(shí),分析自然也無法實(shí)時(shí)。有興趣的朋友可以看一下我的上一篇文章,這里不再贅述。

多樣數(shù)據(jù)類型

從新澤西州的匯款詐騙說起

Xoom是一個(gè)專門從事跨境匯款業(yè)務(wù)的美國(guó)公司,它會(huì)分析一筆交易的所有相關(guān)數(shù)據(jù)。2011年,它注意到用“發(fā)現(xiàn)卡”從新澤西州匯款的交易量比正常情況多一些,于是啟動(dòng)報(bào)警。Xoom公司的首席執(zhí)行官約翰·孔John Kunze)解釋說:“這個(gè)系統(tǒng)關(guān)注的是不應(yīng)該出現(xiàn)的情況?!眴为?dú)來看,每筆交易都是合法的,但是事實(shí)證明這是一個(gè)犯罪集團(tuán)在試圖詐騙。而發(fā)現(xiàn)異常的唯一方法就是,重新檢查所有的數(shù)據(jù),找出統(tǒng)計(jì)學(xué)分析法錯(cuò)過的信息。

大數(shù)據(jù)強(qiáng)調(diào)搜集所有的相關(guān)數(shù)據(jù),所以能發(fā)現(xiàn)“未知的問題”。而傳統(tǒng)的統(tǒng)計(jì)學(xué)分析,則只能等到問題爆發(fā),才能回溯尋找原因,繼而進(jìn)行事后分析。孰優(yōu)孰劣,自然一清二楚。

什么是大數(shù)據(jù)分析?

定義:對(duì)規(guī)模較大的數(shù)據(jù)進(jìn)行分析,通常使用一些算法結(jié)合海量數(shù)據(jù)來預(yù)測(cè)某些事情發(fā)生的可能性

初看定義,同學(xué)們可能會(huì)很失望,看似深?yuàn)W的大數(shù)據(jù)分析竟然可以用這么一句簡(jiǎn)單的話來概括?然而,越是簡(jiǎn)單的道理,實(shí)際操作起來往往越難。大數(shù)據(jù)分析,簡(jiǎn)單可以分為以下4步:

收集

數(shù)據(jù)收集的核心:在于收集的最好是“全量”數(shù)據(jù),至少是盡可能多維度的數(shù)據(jù)

(1)屁股坐姿與防盜系統(tǒng)——數(shù)據(jù)維度

很少有人會(huì)認(rèn)為一個(gè)人的坐姿能表現(xiàn)什么信息,但是日本先進(jìn)工業(yè)技術(shù)研究所的教授越水重臣認(rèn)為可以。當(dāng)一個(gè)人坐著的時(shí)候,他的身形、姿勢(shì)和重量分布都可以量化和數(shù)據(jù)化。越水重臣的團(tuán)隊(duì)通過在汽車座椅下部安裝總共360個(gè)壓力傳感器以測(cè)量人對(duì)椅子施加壓力的方式。把人體屁股特征轉(zhuǎn)化成了數(shù)據(jù),并且用0~256這個(gè)數(shù)值范圍對(duì)其進(jìn)行量化,這樣就會(huì)產(chǎn)生獨(dú)屬于每個(gè)乘坐者的精確數(shù)據(jù)資料。

在這個(gè)實(shí)驗(yàn)中,這個(gè)系統(tǒng)能根據(jù)人體對(duì)座位的壓力差異識(shí)別出乘坐者的身份,準(zhǔn)確率高達(dá)98%。有了這個(gè)系統(tǒng)之后,汽車就能識(shí)別出駕駛者是不是車主;如果不是,系統(tǒng)就會(huì)要求司機(jī)輸入密碼;如果司機(jī)無法準(zhǔn)確輸入密碼,汽車就會(huì)自動(dòng)熄火。

如果僅僅只收集身形數(shù)據(jù),或者只收集體重,系統(tǒng)都無法準(zhǔn)確識(shí)別人的身份。大數(shù)據(jù)分析非常依賴數(shù)據(jù)的維度,數(shù)據(jù)的維度越多,數(shù)據(jù)量越大,大數(shù)據(jù)的價(jià)值也會(huì)倍增,可控分析的內(nèi)容也會(huì)越多。

(2)數(shù)據(jù)分類

IDC早在2011年的調(diào)查報(bào)告中就提到,非結(jié)構(gòu)化數(shù)據(jù)占未來十年新生成數(shù)據(jù)的90%。所以,數(shù)據(jù)的收集,不單單是對(duì)結(jié)構(gòu)化數(shù)據(jù)的收集,也包括非結(jié)構(gòu)化數(shù)據(jù)。

存儲(chǔ)

以微信為代表的社交網(wǎng)絡(luò),和以淘寶為首的電子商務(wù),把人類社會(huì)帶入了一個(gè)以“PB”(1024TB)為單位的結(jié)構(gòu)與非結(jié)構(gòu)數(shù)據(jù)信息的新時(shí)代。

目前關(guān)系型數(shù)據(jù)庫(kù)在可縮放方面幾乎已經(jīng)達(dá)到極限,無法處理如此量大、并且不規(guī)則的“非結(jié)構(gòu)數(shù)據(jù)”的。而解決方案就是使用鍵值(Key-Value)存儲(chǔ)數(shù)據(jù)庫(kù),這是一種 NoSQL(非關(guān)系型數(shù)據(jù)庫(kù))模型,其數(shù)據(jù)按照鍵值對(duì)的形式進(jìn)行組織、索引和存儲(chǔ)。KV存儲(chǔ)非常適合不涉及過多數(shù)據(jù)關(guān)系業(yè)務(wù)關(guān)系的業(yè)務(wù)數(shù)據(jù),同時(shí)能有效減少讀寫磁盤的次數(shù),比SQL數(shù)據(jù)庫(kù)存儲(chǔ)擁有更好的讀寫性能。

下圖是5種用于大數(shù)據(jù)處理的存儲(chǔ)數(shù)據(jù)庫(kù):

處理

數(shù)據(jù)處理的技術(shù)可以使用云計(jì)算,而處理數(shù)據(jù)的方法,便是利用算法結(jié)合數(shù)據(jù)預(yù)測(cè)某些事情發(fā)生的可能性。比如這兩年風(fēng)頭正勁的今日頭條,就是一個(gè)經(jīng)典例子。它為用戶推薦有價(jià)值的、個(gè)性化的信息,本質(zhì)就是記錄你的閱讀內(nèi)容、習(xí)慣、口味等,將這些數(shù)據(jù)標(biāo)簽化,再利用協(xié)同過濾、基于內(nèi)容推薦等推薦算法,就能推薦你想看的新聞了。

以大數(shù)據(jù)分析的一個(gè)分支,機(jī)器學(xué)習(xí)算法為例,整個(gè)流程如圖所示:

下面,我會(huì)最經(jīng)典的樸素貝葉斯分類算法來給大家講解上面的流程。

1、問題建模

(1)對(duì)現(xiàn)實(shí)問題進(jìn)行抽象

假設(shè)豆瓣的老大久聞你的大名,給你提了這樣一個(gè)需求:

這時(shí),你會(huì)對(duì)需求進(jìn)行分析,提取出以下兩個(gè)關(guān)鍵詞:

  • 不同用戶:A喜歡的電影B可能不喜歡,所以我們的模型一定是基于用戶的
  • 喜歡的電影:什么叫喜歡?什么叫討厭?所以,我們需要量化喜歡的標(biāo)準(zhǔn),最直接的辦法就是用評(píng)分來做,5分代表非常喜歡,1分代表非常討厭。

根據(jù)上述分析,我們就可以看出問題的本質(zhì),即我們要實(shí)現(xiàn)的東西——一個(gè)基于用戶的電影評(píng)分系統(tǒng)。現(xiàn)在,我們來看看實(shí)現(xiàn)這個(gè)電影評(píng)分系統(tǒng)的兩種方案:

  • 方案一:根據(jù)用戶之前評(píng)分高的電影,推薦相似的電影
  • 方案二:A、B兩個(gè)用戶喜歡的電影很相似,可以給A推薦B喜歡的電影

第一種方法,就是基于內(nèi)容的推薦算法;而第二種方法,就是基于用戶的協(xié)同過濾算法。假如我們采用第一種方案,問題就可以被轉(zhuǎn)化為下列表達(dá):

  • 計(jì)算電影內(nèi)容之間的相似度,兩部電影越相似,它們的評(píng)分越可能相同

(2)選擇模型

樸素貝葉斯概述

眾所周知,樸素貝葉斯是一種簡(jiǎn)單但是非常強(qiáng)大的線性分類器。它在垃圾郵件分類,疾病診斷中都取得了很大的成功。舉個(gè)例子,你在街上看到一個(gè)黑人,我問你你猜這哥們從哪來的,你十有八九猜非洲。為什么呢?因?yàn)楹谌酥蟹侵奕说谋嚷首罡?,?dāng)然人家也可能是美洲人或亞洲人,但在沒有其它可用信息下,我們會(huì)選擇條件概率最大的類別,這就是樸素貝葉斯的思想基礎(chǔ)。(篇幅所限,這里沒有講樸素貝葉斯的特征獨(dú)立性以及數(shù)學(xué)原理,有興趣的朋友請(qǐng)自行百度)

能否適合電影評(píng)分系統(tǒng)?

樸素貝葉斯是一個(gè)線性分類器,那么意味著它也能將電影進(jìn)行分類:

2、準(zhǔn)備數(shù)據(jù)

這個(gè)不難,豆瓣老大發(fā)了一份電影評(píng)分資料給你:

3、抽取特征

假設(shè)我們選取三個(gè)特征:地區(qū)、投資、風(fēng)格,并對(duì)特征進(jìn)行數(shù)字化處理:

  • 地區(qū):美國(guó) 1 中國(guó) 2……
  • 投資:0:0-1億 ,1:1-2億 2:>2億
  • 風(fēng)格:冒險(xiǎn) 1 戰(zhàn)爭(zhēng) 2……

4、訓(xùn)練模型

假設(shè)阿強(qiáng)對(duì)100部電影進(jìn)行評(píng)分,我們選擇其中80部電影作為訓(xùn)練樣本,以此訓(xùn)練樸素貝葉斯模型,則對(duì)應(yīng)下列流程圖的第二步與第三步

繼續(xù)以阿強(qiáng)為例,在他看過的80部電影中,評(píng)分為5分的電影有20部,則對(duì)應(yīng)的P(5)=20/80=25%,同理可得:

在計(jì)算每個(gè)類別條件下各個(gè)特征屬性劃分的頻率(由于P(x)對(duì)于所有類別來說是常數(shù),所以只用計(jì)算分子):

P(美國(guó)片|電影評(píng)分=5分)= P(所有5分電影中美國(guó)片的占比)* P(5) ……

至此,模型訓(xùn)練完畢,我們就可以用來預(yù)測(cè)阿強(qiáng)未看過的電影評(píng)分了。篇幅所限,如果對(duì)整個(gè)過程有興趣的同學(xué)請(qǐng)自行百度。

5、模型優(yōu)化

我們可以看到,通過上面的模型只能得到整數(shù)型(5、4、3、2、1)的電影評(píng)分,所以可能出現(xiàn)下列兩種情況:

  • 用戶對(duì)電影A的評(píng)分是3.6分,對(duì)電影B的評(píng)分是3.4分,但是利用樸素貝葉斯分類給出的電影評(píng)分電影A就是4分,電影B就是3分;
  • 通過條件概率的計(jì)算,發(fā)現(xiàn)某電影評(píng)分為5分、4分、3分、2分、1分的概率分別為20.5%,19.5%,20%,20%,20%,那么根據(jù)樸素貝葉斯分類的原理,該電影的評(píng)分為5分,但實(shí)際該電影的評(píng)分很可能是1分

所以,從上面的那個(gè)例子可以說明,這是一種比較粗糙的分類方式,更適用于非A即B的分類方式,并不能準(zhǔn)確地反應(yīng)用戶對(duì)一部電影的喜好程度。所以,這里就涉及到可以引入數(shù)據(jù)期望的方法,至于具體的優(yōu)化方式,不再贅述。

應(yīng)用

颶風(fēng)與蛋撻的故事

沃爾瑪公司注意到,每當(dāng)在季節(jié)性颶風(fēng)來臨之前,不僅手電筒銷售量增加了,而且POP-Tarts蛋撻(美式含糖早餐零食)的銷量也增加了。因此,當(dāng)季節(jié)性風(fēng)暴來臨時(shí),沃爾瑪會(huì)把庫(kù)存的蛋撻放在靠近颶風(fēng)用品的位置,以方便行色匆匆的顧客從而增加銷量。

沃爾瑪非常聰明的將數(shù)據(jù)分析的成果應(yīng)用到他們的銷售策略中,而你們?nèi)绻胍蔀橐幻麛?shù)據(jù)分析師,也應(yīng)該不斷在實(shí)踐中去運(yùn)用數(shù)據(jù)分析的成果,才能真正成長(zhǎng)起來。

寫在最后

無論是傳統(tǒng)的統(tǒng)計(jì)學(xué)分析,還是時(shí)髦的大數(shù)據(jù)分析,它們的本質(zhì)都是一脈相承的:對(duì)數(shù)據(jù)價(jià)值的挖掘與探索。只有在長(zhǎng)期的實(shí)踐中不斷培養(yǎng)對(duì)數(shù)據(jù)的敏感性,不斷努力向前,你才能成為一名優(yōu)秀的數(shù)據(jù)分析師/產(chǎn)品運(yùn)營(yíng)/產(chǎn)品經(jīng)理?!侗c火之歌:數(shù)據(jù)分析的前世今生》系列就到這里。

以下是這個(gè)系列文章的參考書目,可以一讀:

  • 《大數(shù)據(jù)時(shí)代》
  • 《深入淺出數(shù)據(jù)分析》
  • 《金字塔原理》
  • 《增長(zhǎng)黑客》

相關(guān)閱讀

冰與火之歌:數(shù)據(jù)分析的前世今生(一)

 

作者:曹思龍,微信公眾號(hào):及策云課堂。Admaster產(chǎn)品經(jīng)理,畢業(yè)于北京郵電大學(xué),知乎專欄作者

本文由 @曹思龍 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 寫的很nice,希望可以一直寫下去。

    回復(fù)
  2. 很棒,突然想起應(yīng)該把大學(xué)的概率統(tǒng)計(jì)書拿出來看了,表示已經(jīng)忘記了貝葉斯定律的細(xì)節(jié)了

    來自中國(guó) 回復(fù)
  3. 沙發(fā),等到第二篇很不錯(cuò)喲~

    來自廣東 回復(fù)
    1. ?? 以后每周都有~

      來自北京 回復(fù)