冰與火之歌:數(shù)據(jù)分析的前世今生(二)
無論是傳統(tǒng)的統(tǒng)計(jì)學(xué)分析,還是時(shí)髦的大數(shù)據(jù)分析,它們的本質(zhì)都是一脈相承的:對(duì)數(shù)據(jù)價(jià)值的挖掘與探索。只有在長(zhǎng)期的實(shí)踐中不斷培養(yǎng)對(duì)數(shù)據(jù)的敏感性,不斷努力向前,你才能成為一名優(yōu)秀的數(shù)據(jù)分析師/產(chǎn)品運(yùn)營(yíng)/產(chǎn)品經(jīng)理。
2017年5月27日,浙江烏鎮(zhèn),人機(jī)對(duì)弈。世界第一的柯潔在顫抖,他皺著眉,仿佛聽到眼前黑白子之間刀來劍往的殺伐之聲。俄而,他嘆口氣,撿兩枚旗子丟到棋盤上,認(rèn)輸了。這個(gè)身穿黑衣的青年,狂傲不羈的天才,躬身站起,望了眼兵敗如山倒的棋局,似乎又有些釋然。沒有驚喜,沒有奇跡,當(dāng)圍棋上帝AlphaGo一騎絕塵時(shí),他明白自己也走到十字路口上。
圍棋,是一個(gè)靠直覺而非計(jì)算的游戲,而AlphaGo是在嘗試“用計(jì)算機(jī)擬合直覺”。具體說就是,通過深度神經(jīng)網(wǎng)絡(luò),模仿人類下圍棋這種直覺行為。而深度神經(jīng)網(wǎng)絡(luò)這種算法的實(shí)現(xiàn),則依賴于對(duì)海量數(shù)據(jù)的挖掘與分析,d也就是我們接下來要講的大數(shù)據(jù)分析。
大數(shù)據(jù)分析的優(yōu)點(diǎn)
在講大數(shù)據(jù)前,讓我們回顧上一篇冰與火之歌:數(shù)據(jù)分析的前世今生(一)文末提到,基于統(tǒng)計(jì)學(xué)的數(shù)據(jù)分析有一些局限性:
- 對(duì)數(shù)據(jù)的精確度要求很高
- 很難做到實(shí)時(shí)分析
- 無法回答數(shù)據(jù)搜集時(shí)未考慮的問題
而大數(shù)據(jù)能近乎完美地解決上述問題,解決的原因,我們可以從大數(shù)據(jù)的三個(gè)特征進(jìn)行分析:
海量數(shù)據(jù)規(guī)模
舉個(gè)不太嚴(yán)謹(jǐn)?shù)睦?,假如我們要預(yù)測(cè)2017年北京高考數(shù)學(xué)平均分,方法是找出歷年北京高考數(shù)學(xué)平均分與試卷難易度的關(guān)系,再根據(jù)2017北京數(shù)學(xué)卷的難易度,算出平均分。
如果是統(tǒng)計(jì)學(xué),因?yàn)闊o法處理海量的數(shù)據(jù),則只能采用隨機(jī)采樣的原則,從每年的學(xué)生中隨機(jī)抽取100人作為樣本。假設(shè)有1個(gè)人的成績(jī)錄入出錯(cuò),則誤差為0.01。
如果是大數(shù)據(jù),則將北京的6萬考生全部作為處理數(shù)據(jù),假設(shè)有100個(gè)人成績(jī)錄入出錯(cuò),則誤差為0.002。
從上面這個(gè)例子可以看出,統(tǒng)計(jì)學(xué)由于數(shù)據(jù)量小,一顆耗子屎打亂一鍋粥。而大數(shù)據(jù)的數(shù)據(jù)規(guī)模如此龐大,所以允許數(shù)據(jù)有一定誤差。
動(dòng)態(tài)數(shù)據(jù)體系
大數(shù)據(jù)的采集、存儲(chǔ)、處理都是實(shí)時(shí)進(jìn)行的,所以能實(shí)時(shí)分析。而統(tǒng)計(jì)學(xué)的數(shù)據(jù)分析,則依賴于確定問題,再根據(jù)問題去搜集數(shù)據(jù),數(shù)據(jù)的搜集無法做到實(shí)時(shí),分析自然也無法實(shí)時(shí)。有興趣的朋友可以看一下我的上一篇文章,這里不再贅述。
多樣數(shù)據(jù)類型
從新澤西州的匯款詐騙說起
Xoom是一個(gè)專門從事跨境匯款業(yè)務(wù)的美國(guó)公司,它會(huì)分析一筆交易的所有相關(guān)數(shù)據(jù)。2011年,它注意到用“發(fā)現(xiàn)卡”從新澤西州匯款的交易量比正常情況多一些,于是啟動(dòng)報(bào)警。Xoom公司的首席執(zhí)行官約翰·孔John Kunze)解釋說:“這個(gè)系統(tǒng)關(guān)注的是不應(yīng)該出現(xiàn)的情況?!眴为?dú)來看,每筆交易都是合法的,但是事實(shí)證明這是一個(gè)犯罪集團(tuán)在試圖詐騙。而發(fā)現(xiàn)異常的唯一方法就是,重新檢查所有的數(shù)據(jù),找出統(tǒng)計(jì)學(xué)分析法錯(cuò)過的信息。
大數(shù)據(jù)強(qiáng)調(diào)搜集所有的相關(guān)數(shù)據(jù),所以能發(fā)現(xiàn)“未知的問題”。而傳統(tǒng)的統(tǒng)計(jì)學(xué)分析,則只能等到問題爆發(fā),才能回溯尋找原因,繼而進(jìn)行事后分析。孰優(yōu)孰劣,自然一清二楚。
什么是大數(shù)據(jù)分析?
定義:對(duì)規(guī)模較大的數(shù)據(jù)進(jìn)行分析,通常使用一些算法結(jié)合海量數(shù)據(jù)來預(yù)測(cè)某些事情發(fā)生的可能性
初看定義,同學(xué)們可能會(huì)很失望,看似深?yuàn)W的大數(shù)據(jù)分析竟然可以用這么一句簡(jiǎn)單的話來概括?然而,越是簡(jiǎn)單的道理,實(shí)際操作起來往往越難。大數(shù)據(jù)分析,簡(jiǎn)單可以分為以下4步:
收集
數(shù)據(jù)收集的核心:在于收集的最好是“全量”數(shù)據(jù),至少是盡可能多維度的數(shù)據(jù)
(1)屁股坐姿與防盜系統(tǒng)——數(shù)據(jù)維度
很少有人會(huì)認(rèn)為一個(gè)人的坐姿能表現(xiàn)什么信息,但是日本先進(jìn)工業(yè)技術(shù)研究所的教授越水重臣認(rèn)為可以。當(dāng)一個(gè)人坐著的時(shí)候,他的身形、姿勢(shì)和重量分布都可以量化和數(shù)據(jù)化。越水重臣的團(tuán)隊(duì)通過在汽車座椅下部安裝總共360個(gè)壓力傳感器以測(cè)量人對(duì)椅子施加壓力的方式。把人體屁股特征轉(zhuǎn)化成了數(shù)據(jù),并且用0~256這個(gè)數(shù)值范圍對(duì)其進(jìn)行量化,這樣就會(huì)產(chǎn)生獨(dú)屬于每個(gè)乘坐者的精確數(shù)據(jù)資料。
在這個(gè)實(shí)驗(yàn)中,這個(gè)系統(tǒng)能根據(jù)人體對(duì)座位的壓力差異識(shí)別出乘坐者的身份,準(zhǔn)確率高達(dá)98%。有了這個(gè)系統(tǒng)之后,汽車就能識(shí)別出駕駛者是不是車主;如果不是,系統(tǒng)就會(huì)要求司機(jī)輸入密碼;如果司機(jī)無法準(zhǔn)確輸入密碼,汽車就會(huì)自動(dòng)熄火。
如果僅僅只收集身形數(shù)據(jù),或者只收集體重,系統(tǒng)都無法準(zhǔn)確識(shí)別人的身份。大數(shù)據(jù)分析非常依賴數(shù)據(jù)的維度,數(shù)據(jù)的維度越多,數(shù)據(jù)量越大,大數(shù)據(jù)的價(jià)值也會(huì)倍增,可控分析的內(nèi)容也會(huì)越多。
(2)數(shù)據(jù)分類
IDC早在2011年的調(diào)查報(bào)告中就提到,非結(jié)構(gòu)化數(shù)據(jù)占未來十年新生成數(shù)據(jù)的90%。所以,數(shù)據(jù)的收集,不單單是對(duì)結(jié)構(gòu)化數(shù)據(jù)的收集,也包括非結(jié)構(gòu)化數(shù)據(jù)。
存儲(chǔ)
以微信為代表的社交網(wǎng)絡(luò),和以淘寶為首的電子商務(wù),把人類社會(huì)帶入了一個(gè)以“PB”(1024TB)為單位的結(jié)構(gòu)與非結(jié)構(gòu)數(shù)據(jù)信息的新時(shí)代。
目前關(guān)系型數(shù)據(jù)庫(kù)在可縮放方面幾乎已經(jīng)達(dá)到極限,無法處理如此量大、并且不規(guī)則的“非結(jié)構(gòu)數(shù)據(jù)”的。而解決方案就是使用鍵值(Key-Value)存儲(chǔ)數(shù)據(jù)庫(kù),這是一種 NoSQL(非關(guān)系型數(shù)據(jù)庫(kù))模型,其數(shù)據(jù)按照鍵值對(duì)的形式進(jìn)行組織、索引和存儲(chǔ)。KV存儲(chǔ)非常適合不涉及過多數(shù)據(jù)關(guān)系業(yè)務(wù)關(guān)系的業(yè)務(wù)數(shù)據(jù),同時(shí)能有效減少讀寫磁盤的次數(shù),比SQL數(shù)據(jù)庫(kù)存儲(chǔ)擁有更好的讀寫性能。
下圖是5種用于大數(shù)據(jù)處理的存儲(chǔ)數(shù)據(jù)庫(kù):
處理
數(shù)據(jù)處理的技術(shù)可以使用云計(jì)算,而處理數(shù)據(jù)的方法,便是利用算法結(jié)合數(shù)據(jù)預(yù)測(cè)某些事情發(fā)生的可能性。比如這兩年風(fēng)頭正勁的今日頭條,就是一個(gè)經(jīng)典例子。它為用戶推薦有價(jià)值的、個(gè)性化的信息,本質(zhì)就是記錄你的閱讀內(nèi)容、習(xí)慣、口味等,將這些數(shù)據(jù)標(biāo)簽化,再利用協(xié)同過濾、基于內(nèi)容推薦等推薦算法,就能推薦你想看的新聞了。
以大數(shù)據(jù)分析的一個(gè)分支,機(jī)器學(xué)習(xí)算法為例,整個(gè)流程如圖所示:
下面,我會(huì)最經(jīng)典的樸素貝葉斯分類算法來給大家講解上面的流程。
1、問題建模
(1)對(duì)現(xiàn)實(shí)問題進(jìn)行抽象
假設(shè)豆瓣的老大久聞你的大名,給你提了這樣一個(gè)需求:
這時(shí),你會(huì)對(duì)需求進(jìn)行分析,提取出以下兩個(gè)關(guān)鍵詞:
- 不同用戶:A喜歡的電影B可能不喜歡,所以我們的模型一定是基于用戶的
- 喜歡的電影:什么叫喜歡?什么叫討厭?所以,我們需要量化喜歡的標(biāo)準(zhǔn),最直接的辦法就是用評(píng)分來做,5分代表非常喜歡,1分代表非常討厭。
根據(jù)上述分析,我們就可以看出問題的本質(zhì),即我們要實(shí)現(xiàn)的東西——一個(gè)基于用戶的電影評(píng)分系統(tǒng)。現(xiàn)在,我們來看看實(shí)現(xiàn)這個(gè)電影評(píng)分系統(tǒng)的兩種方案:
- 方案一:根據(jù)用戶之前評(píng)分高的電影,推薦相似的電影
- 方案二:A、B兩個(gè)用戶喜歡的電影很相似,可以給A推薦B喜歡的電影
第一種方法,就是基于內(nèi)容的推薦算法;而第二種方法,就是基于用戶的協(xié)同過濾算法。假如我們采用第一種方案,問題就可以被轉(zhuǎn)化為下列表達(dá):
- 計(jì)算電影內(nèi)容之間的相似度,兩部電影越相似,它們的評(píng)分越可能相同
(2)選擇模型
樸素貝葉斯概述
眾所周知,樸素貝葉斯是一種簡(jiǎn)單但是非常強(qiáng)大的線性分類器。它在垃圾郵件分類,疾病診斷中都取得了很大的成功。舉個(gè)例子,你在街上看到一個(gè)黑人,我問你你猜這哥們從哪來的,你十有八九猜非洲。為什么呢?因?yàn)楹谌酥蟹侵奕说谋嚷首罡?,?dāng)然人家也可能是美洲人或亞洲人,但在沒有其它可用信息下,我們會(huì)選擇條件概率最大的類別,這就是樸素貝葉斯的思想基礎(chǔ)。(篇幅所限,這里沒有講樸素貝葉斯的特征獨(dú)立性以及數(shù)學(xué)原理,有興趣的朋友請(qǐng)自行百度)
能否適合電影評(píng)分系統(tǒng)?
樸素貝葉斯是一個(gè)線性分類器,那么意味著它也能將電影進(jìn)行分類:
2、準(zhǔn)備數(shù)據(jù)
這個(gè)不難,豆瓣老大發(fā)了一份電影評(píng)分資料給你:
3、抽取特征
假設(shè)我們選取三個(gè)特征:地區(qū)、投資、風(fēng)格,并對(duì)特征進(jìn)行數(shù)字化處理:
- 地區(qū):美國(guó) 1 中國(guó) 2……
- 投資:0:0-1億 ,1:1-2億 2:>2億
- 風(fēng)格:冒險(xiǎn) 1 戰(zhàn)爭(zhēng) 2……
4、訓(xùn)練模型
假設(shè)阿強(qiáng)對(duì)100部電影進(jìn)行評(píng)分,我們選擇其中80部電影作為訓(xùn)練樣本,以此訓(xùn)練樸素貝葉斯模型,則對(duì)應(yīng)下列流程圖的第二步與第三步
繼續(xù)以阿強(qiáng)為例,在他看過的80部電影中,評(píng)分為5分的電影有20部,則對(duì)應(yīng)的P(5)=20/80=25%,同理可得:
在計(jì)算每個(gè)類別條件下各個(gè)特征屬性劃分的頻率(由于P(x)對(duì)于所有類別來說是常數(shù),所以只用計(jì)算分子):
P(美國(guó)片|電影評(píng)分=5分)= P(所有5分電影中美國(guó)片的占比)* P(5) ……
至此,模型訓(xùn)練完畢,我們就可以用來預(yù)測(cè)阿強(qiáng)未看過的電影評(píng)分了。篇幅所限,如果對(duì)整個(gè)過程有興趣的同學(xué)請(qǐng)自行百度。
5、模型優(yōu)化
我們可以看到,通過上面的模型只能得到整數(shù)型(5、4、3、2、1)的電影評(píng)分,所以可能出現(xiàn)下列兩種情況:
- 用戶對(duì)電影A的評(píng)分是3.6分,對(duì)電影B的評(píng)分是3.4分,但是利用樸素貝葉斯分類給出的電影評(píng)分電影A就是4分,電影B就是3分;
- 通過條件概率的計(jì)算,發(fā)現(xiàn)某電影評(píng)分為5分、4分、3分、2分、1分的概率分別為20.5%,19.5%,20%,20%,20%,那么根據(jù)樸素貝葉斯分類的原理,該電影的評(píng)分為5分,但實(shí)際該電影的評(píng)分很可能是1分
所以,從上面的那個(gè)例子可以說明,這是一種比較粗糙的分類方式,更適用于非A即B的分類方式,并不能準(zhǔn)確地反應(yīng)用戶對(duì)一部電影的喜好程度。所以,這里就涉及到可以引入數(shù)據(jù)期望的方法,至于具體的優(yōu)化方式,不再贅述。
應(yīng)用
颶風(fēng)與蛋撻的故事
沃爾瑪公司注意到,每當(dāng)在季節(jié)性颶風(fēng)來臨之前,不僅手電筒銷售量增加了,而且POP-Tarts蛋撻(美式含糖早餐零食)的銷量也增加了。因此,當(dāng)季節(jié)性風(fēng)暴來臨時(shí),沃爾瑪會(huì)把庫(kù)存的蛋撻放在靠近颶風(fēng)用品的位置,以方便行色匆匆的顧客從而增加銷量。
沃爾瑪非常聰明的將數(shù)據(jù)分析的成果應(yīng)用到他們的銷售策略中,而你們?nèi)绻胍蔀橐幻麛?shù)據(jù)分析師,也應(yīng)該不斷在實(shí)踐中去運(yùn)用數(shù)據(jù)分析的成果,才能真正成長(zhǎng)起來。
寫在最后
無論是傳統(tǒng)的統(tǒng)計(jì)學(xué)分析,還是時(shí)髦的大數(shù)據(jù)分析,它們的本質(zhì)都是一脈相承的:對(duì)數(shù)據(jù)價(jià)值的挖掘與探索。只有在長(zhǎng)期的實(shí)踐中不斷培養(yǎng)對(duì)數(shù)據(jù)的敏感性,不斷努力向前,你才能成為一名優(yōu)秀的數(shù)據(jù)分析師/產(chǎn)品運(yùn)營(yíng)/產(chǎn)品經(jīng)理?!侗c火之歌:數(shù)據(jù)分析的前世今生》系列就到這里。
以下是這個(gè)系列文章的參考書目,可以一讀:
- 《大數(shù)據(jù)時(shí)代》
- 《深入淺出數(shù)據(jù)分析》
- 《金字塔原理》
- 《增長(zhǎng)黑客》
相關(guān)閱讀
作者:曹思龍,微信公眾號(hào):及策云課堂。Admaster產(chǎn)品經(jīng)理,畢業(yè)于北京郵電大學(xué),知乎專欄作者
本文由 @曹思龍 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
寫的很nice,希望可以一直寫下去。
很棒,突然想起應(yīng)該把大學(xué)的概率統(tǒng)計(jì)書拿出來看了,表示已經(jīng)忘記了貝葉斯定律的細(xì)節(jié)了
沙發(fā),等到第二篇很不錯(cuò)喲~
?? 以后每周都有~