国产性色av高清在线观看,亚洲精品在线播放

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

冰與火之歌：數(shù)據(jù)分析的前世今生（二）

阿瞞

2017-06-09

4 評(píng)論 20350 瀏覽 84 收藏

17 分鐘

無論是傳統(tǒng)的統(tǒng)計(jì)學(xué)分析，還是時(shí)髦的大數(shù)據(jù)分析，它們的本質(zhì)都是一脈相承的：對(duì)數(shù)據(jù)價(jià)值的挖掘與探索。只有在長(zhǎng)期的實(shí)踐中不斷培養(yǎng)對(duì)數(shù)據(jù)的敏感性，不斷努力向前，你才能成為一名優(yōu)秀的數(shù)據(jù)分析師/產(chǎn)品運(yùn)營(yíng)/產(chǎn)品經(jīng)理。

2017年5月27日，浙江烏鎮(zhèn)，人機(jī)對(duì)弈。世界第一的柯潔在顫抖，他皺著眉，仿佛聽到眼前黑白子之間刀來劍往的殺伐之聲。俄而，他嘆口氣，撿兩枚旗子丟到棋盤上，認(rèn)輸了。這個(gè)身穿黑衣的青年，狂傲不羈的天才，躬身站起，望了眼兵敗如山倒的棋局，似乎又有些釋然。沒有驚喜，沒有奇跡，當(dāng)圍棋上帝AlphaGo一騎絕塵時(shí)，他明白自己也走到十字路口上。

圍棋，是一個(gè)靠直覺而非計(jì)算的游戲，而AlphaGo是在嘗試“用計(jì)算機(jī)擬合直覺”。具體說就是，通過深度神經(jīng)網(wǎng)絡(luò)，模仿人類下圍棋這種直覺行為。而深度神經(jīng)網(wǎng)絡(luò)這種算法的實(shí)現(xiàn)，則依賴于對(duì)海量數(shù)據(jù)的挖掘與分析，d也就是我們接下來要講的大數(shù)據(jù)分析。

大數(shù)據(jù)分析的優(yōu)點(diǎn)

在講大數(shù)據(jù)前，讓我們回顧上一篇冰與火之歌：數(shù)據(jù)分析的前世今生（一）文末提到，基于統(tǒng)計(jì)學(xué)的數(shù)據(jù)分析有一些局限性：

對(duì)數(shù)據(jù)的精確度要求很高
很難做到實(shí)時(shí)分析
無法回答數(shù)據(jù)搜集時(shí)未考慮的問題

而大數(shù)據(jù)能近乎完美地解決上述問題，解決的原因，我們可以從大數(shù)據(jù)的三個(gè)特征進(jìn)行分析：

海量數(shù)據(jù)規(guī)模

舉個(gè)不太嚴(yán)謹(jǐn)?shù)睦?，假如我們要預(yù)測(cè)2017年北京高考數(shù)學(xué)平均分，方法是找出歷年北京高考數(shù)學(xué)平均分與試卷難易度的關(guān)系，再根據(jù)2017北京數(shù)學(xué)卷的難易度，算出平均分。

如果是統(tǒng)計(jì)學(xué)，因?yàn)闊o法處理海量的數(shù)據(jù)，則只能采用隨機(jī)采樣的原則，從每年的學(xué)生中隨機(jī)抽取100人作為樣本。假設(shè)有1個(gè)人的成績(jī)錄入出錯(cuò)，則誤差為0.01。

如果是大數(shù)據(jù)，則將北京的6萬考生全部作為處理數(shù)據(jù)，假設(shè)有100個(gè)人成績(jī)錄入出錯(cuò)，則誤差為0.002。

從上面這個(gè)例子可以看出，統(tǒng)計(jì)學(xué)由于數(shù)據(jù)量小，一顆耗子屎打亂一鍋粥。而大數(shù)據(jù)的數(shù)據(jù)規(guī)模如此龐大，所以允許數(shù)據(jù)有一定誤差。

動(dòng)態(tài)數(shù)據(jù)體系

大數(shù)據(jù)的采集、存儲(chǔ)、處理都是實(shí)時(shí)進(jìn)行的，所以能實(shí)時(shí)分析。而統(tǒng)計(jì)學(xué)的數(shù)據(jù)分析，則依賴于確定問題，再根據(jù)問題去搜集數(shù)據(jù)，數(shù)據(jù)的搜集無法做到實(shí)時(shí)，分析自然也無法實(shí)時(shí)。有興趣的朋友可以看一下我的上一篇文章，這里不再贅述。

多樣數(shù)據(jù)類型

從新澤西州的匯款詐騙說起

Xoom是一個(gè)專門從事跨境匯款業(yè)務(wù)的美國(guó)公司，它會(huì)分析一筆交易的所有相關(guān)數(shù)據(jù)。2011年，它注意到用“發(fā)現(xiàn)卡”從新澤西州匯款的交易量比正常情況多一些，于是啟動(dòng)報(bào)警。Xoom公司的首席執(zhí)行官約翰·孔John Kunze)解釋說:“這個(gè)系統(tǒng)關(guān)注的是不應(yīng)該出現(xiàn)的情況?！眴为?dú)來看，每筆交易都是合法的，但是事實(shí)證明這是一個(gè)犯罪集團(tuán)在試圖詐騙。而發(fā)現(xiàn)異常的唯一方法就是，重新檢查所有的數(shù)據(jù)，找出統(tǒng)計(jì)學(xué)分析法錯(cuò)過的信息。

大數(shù)據(jù)強(qiáng)調(diào)搜集所有的相關(guān)數(shù)據(jù)，所以能發(fā)現(xiàn)“未知的問題”。而傳統(tǒng)的統(tǒng)計(jì)學(xué)分析，則只能等到問題爆發(fā)，才能回溯尋找原因，繼而進(jìn)行事后分析。孰優(yōu)孰劣，自然一清二楚。

什么是大數(shù)據(jù)分析？

定義：對(duì)規(guī)模較大的數(shù)據(jù)進(jìn)行分析，通常使用一些算法結(jié)合海量數(shù)據(jù)來預(yù)測(cè)某些事情發(fā)生的可能性

初看定義，同學(xué)們可能會(huì)很失望，看似深?yuàn)W的大數(shù)據(jù)分析竟然可以用這么一句簡(jiǎn)單的話來概括？然而，越是簡(jiǎn)單的道理，實(shí)際操作起來往往越難。大數(shù)據(jù)分析，簡(jiǎn)單可以分為以下4步：

收集

數(shù)據(jù)收集的核心：在于收集的最好是“全量”數(shù)據(jù)，至少是盡可能多維度的數(shù)據(jù)

（1）屁股坐姿與防盜系統(tǒng)——數(shù)據(jù)維度

很少有人會(huì)認(rèn)為一個(gè)人的坐姿能表現(xiàn)什么信息，但是日本先進(jìn)工業(yè)技術(shù)研究所的教授越水重臣認(rèn)為可以。當(dāng)一個(gè)人坐著的時(shí)候，他的身形、姿勢(shì)和重量分布都可以量化和數(shù)據(jù)化。越水重臣的團(tuán)隊(duì)通過在汽車座椅下部安裝總共360個(gè)壓力傳感器以測(cè)量人對(duì)椅子施加壓力的方式。把人體屁股特征轉(zhuǎn)化成了數(shù)據(jù)，并且用0~256這個(gè)數(shù)值范圍對(duì)其進(jìn)行量化，這樣就會(huì)產(chǎn)生獨(dú)屬于每個(gè)乘坐者的精確數(shù)據(jù)資料。

在這個(gè)實(shí)驗(yàn)中,這個(gè)系統(tǒng)能根據(jù)人體對(duì)座位的壓力差異識(shí)別出乘坐者的身份，準(zhǔn)確率高達(dá)98%。有了這個(gè)系統(tǒng)之后，汽車就能識(shí)別出駕駛者是不是車主；如果不是，系統(tǒng)就會(huì)要求司機(jī)輸入密碼；如果司機(jī)無法準(zhǔn)確輸入密碼，汽車就會(huì)自動(dòng)熄火。

如果僅僅只收集身形數(shù)據(jù)，或者只收集體重，系統(tǒng)都無法準(zhǔn)確識(shí)別人的身份。大數(shù)據(jù)分析非常依賴數(shù)據(jù)的維度，數(shù)據(jù)的維度越多，數(shù)據(jù)量越大，大數(shù)據(jù)的價(jià)值也會(huì)倍增，可控分析的內(nèi)容也會(huì)越多。

（2）數(shù)據(jù)分類

IDC早在2011年的調(diào)查報(bào)告中就提到，非結(jié)構(gòu)化數(shù)據(jù)占未來十年新生成數(shù)據(jù)的90%。所以，數(shù)據(jù)的收集，不單單是對(duì)結(jié)構(gòu)化數(shù)據(jù)的收集，也包括非結(jié)構(gòu)化數(shù)據(jù)。

存儲(chǔ)

以微信為代表的社交網(wǎng)絡(luò)，和以淘寶為首的電子商務(wù)，把人類社會(huì)帶入了一個(gè)以“PB”(1024TB)為單位的結(jié)構(gòu)與非結(jié)構(gòu)數(shù)據(jù)信息的新時(shí)代。

目前關(guān)系型數(shù)據(jù)庫(kù)在可縮放方面幾乎已經(jīng)達(dá)到極限，無法處理如此量大、并且不規(guī)則的“非結(jié)構(gòu)數(shù)據(jù)”的。而解決方案就是使用鍵值（Key-Value）存儲(chǔ)數(shù)據(jù)庫(kù)，這是一種 NoSQL（非關(guān)系型數(shù)據(jù)庫(kù)）模型，其數(shù)據(jù)按照鍵值對(duì)的形式進(jìn)行組織、索引和存儲(chǔ)。KV存儲(chǔ)非常適合不涉及過多數(shù)據(jù)關(guān)系業(yè)務(wù)關(guān)系的業(yè)務(wù)數(shù)據(jù)，同時(shí)能有效減少讀寫磁盤的次數(shù)，比SQL數(shù)據(jù)庫(kù)存儲(chǔ)擁有更好的讀寫性能。

下圖是5種用于大數(shù)據(jù)處理的存儲(chǔ)數(shù)據(jù)庫(kù)：

處理

數(shù)據(jù)處理的技術(shù)可以使用云計(jì)算，而處理數(shù)據(jù)的方法，便是利用算法結(jié)合數(shù)據(jù)預(yù)測(cè)某些事情發(fā)生的可能性。比如這兩年風(fēng)頭正勁的今日頭條，就是一個(gè)經(jīng)典例子。它為用戶推薦有價(jià)值的、個(gè)性化的信息，本質(zhì)就是記錄你的閱讀內(nèi)容、習(xí)慣、口味等，將這些數(shù)據(jù)標(biāo)簽化，再利用協(xié)同過濾、基于內(nèi)容推薦等推薦算法，就能推薦你想看的新聞了。

以大數(shù)據(jù)分析的一個(gè)分支，機(jī)器學(xué)習(xí)算法為例，整個(gè)流程如圖所示：

下面，我會(huì)最經(jīng)典的樸素貝葉斯分類算法來給大家講解上面的流程。

1、問題建模

（1）對(duì)現(xiàn)實(shí)問題進(jìn)行抽象

假設(shè)豆瓣的老大久聞你的大名，給你提了這樣一個(gè)需求：

這時(shí)，你會(huì)對(duì)需求進(jìn)行分析，提取出以下兩個(gè)關(guān)鍵詞：

不同用戶：A喜歡的電影B可能不喜歡，所以我們的模型一定是基于用戶的
喜歡的電影：什么叫喜歡？什么叫討厭？所以，我們需要量化喜歡的標(biāo)準(zhǔn)，最直接的辦法就是用評(píng)分來做，5分代表非常喜歡，1分代表非常討厭。

根據(jù)上述分析，我們就可以看出問題的本質(zhì)，即我們要實(shí)現(xiàn)的東西——一個(gè)基于用戶的電影評(píng)分系統(tǒng)。現(xiàn)在，我們來看看實(shí)現(xiàn)這個(gè)電影評(píng)分系統(tǒng)的兩種方案：

方案一：根據(jù)用戶之前評(píng)分高的電影，推薦相似的電影
方案二：A、B兩個(gè)用戶喜歡的電影很相似，可以給A推薦B喜歡的電影

第一種方法，就是基于內(nèi)容的推薦算法；而第二種方法，就是基于用戶的協(xié)同過濾算法。假如我們采用第一種方案，問題就可以被轉(zhuǎn)化為下列表達(dá)：

計(jì)算電影內(nèi)容之間的相似度，兩部電影越相似，它們的評(píng)分越可能相同

（2）選擇模型

樸素貝葉斯概述

眾所周知，樸素貝葉斯是一種簡(jiǎn)單但是非常強(qiáng)大的線性分類器。它在垃圾郵件分類，疾病診斷中都取得了很大的成功。舉個(gè)例子，你在街上看到一個(gè)黑人，我問你你猜這哥們從哪來的，你十有八九猜非洲。為什么呢？因?yàn)楹谌酥蟹侵奕说谋嚷首罡?，?dāng)然人家也可能是美洲人或亞洲人，但在沒有其它可用信息下，我們會(huì)選擇條件概率最大的類別，這就是樸素貝葉斯的思想基礎(chǔ)。（篇幅所限，這里沒有講樸素貝葉斯的特征獨(dú)立性以及數(shù)學(xué)原理，有興趣的朋友請(qǐng)自行百度）

能否適合電影評(píng)分系統(tǒng)？

樸素貝葉斯是一個(gè)線性分類器，那么意味著它也能將電影進(jìn)行分類：

2、準(zhǔn)備數(shù)據(jù)

這個(gè)不難，豆瓣老大發(fā)了一份電影評(píng)分資料給你：

3、抽取特征

假設(shè)我們選取三個(gè)特征：地區(qū)、投資、風(fēng)格，并對(duì)特征進(jìn)行數(shù)字化處理：

地區(qū)：美國(guó) 1 中國(guó) 2……
投資：0：0-1億，1：1-2億 2：>2億
風(fēng)格：冒險(xiǎn) 1 戰(zhàn)爭(zhēng) 2……

4、訓(xùn)練模型

假設(shè)阿強(qiáng)對(duì)100部電影進(jìn)行評(píng)分，我們選擇其中80部電影作為訓(xùn)練樣本，以此訓(xùn)練樸素貝葉斯模型，則對(duì)應(yīng)下列流程圖的第二步與第三步

繼續(xù)以阿強(qiáng)為例，在他看過的80部電影中，評(píng)分為5分的電影有20部，則對(duì)應(yīng)的P(5)=20/80=25%，同理可得：

在計(jì)算每個(gè)類別條件下各個(gè)特征屬性劃分的頻率（由于P（x）對(duì)于所有類別來說是常數(shù)，所以只用計(jì)算分子）：

P（美國(guó)片|電影評(píng)分=5分）= P（所有5分電影中美國(guó)片的占比）* P（5） ……

至此，模型訓(xùn)練完畢，我們就可以用來預(yù)測(cè)阿強(qiáng)未看過的電影評(píng)分了。篇幅所限，如果對(duì)整個(gè)過程有興趣的同學(xué)請(qǐng)自行百度。

5、模型優(yōu)化

我們可以看到，通過上面的模型只能得到整數(shù)型（5、4、3、2、1）的電影評(píng)分，所以可能出現(xiàn)下列兩種情況：

用戶對(duì)電影A的評(píng)分是3.6分，對(duì)電影B的評(píng)分是3.4分，但是利用樸素貝葉斯分類給出的電影評(píng)分電影A就是4分，電影B就是3分；
通過條件概率的計(jì)算，發(fā)現(xiàn)某電影評(píng)分為5分、4分、3分、2分、1分的概率分別為20.5%,19.5%,20%,20%,20%，那么根據(jù)樸素貝葉斯分類的原理，該電影的評(píng)分為5分，但實(shí)際該電影的評(píng)分很可能是1分

所以，從上面的那個(gè)例子可以說明，這是一種比較粗糙的分類方式，更適用于非A即B的分類方式，并不能準(zhǔn)確地反應(yīng)用戶對(duì)一部電影的喜好程度。所以，這里就涉及到可以引入數(shù)據(jù)期望的方法，至于具體的優(yōu)化方式，不再贅述。

應(yīng)用

颶風(fēng)與蛋撻的故事

沃爾瑪公司注意到，每當(dāng)在季節(jié)性颶風(fēng)來臨之前，不僅手電筒銷售量增加了，而且POP-Tarts蛋撻(美式含糖早餐零食)的銷量也增加了。因此，當(dāng)季節(jié)性風(fēng)暴來臨時(shí)，沃爾瑪會(huì)把庫(kù)存的蛋撻放在靠近颶風(fēng)用品的位置，以方便行色匆匆的顧客從而增加銷量。

沃爾瑪非常聰明的將數(shù)據(jù)分析的成果應(yīng)用到他們的銷售策略中，而你們?nèi)绻胍蔀橐幻麛?shù)據(jù)分析師，也應(yīng)該不斷在實(shí)踐中去運(yùn)用數(shù)據(jù)分析的成果，才能真正成長(zhǎng)起來。

寫在最后

無論是傳統(tǒng)的統(tǒng)計(jì)學(xué)分析，還是時(shí)髦的大數(shù)據(jù)分析，它們的本質(zhì)都是一脈相承的：對(duì)數(shù)據(jù)價(jià)值的挖掘與探索。只有在長(zhǎng)期的實(shí)踐中不斷培養(yǎng)對(duì)數(shù)據(jù)的敏感性，不斷努力向前，你才能成為一名優(yōu)秀的數(shù)據(jù)分析師/產(chǎn)品運(yùn)營(yíng)/產(chǎn)品經(jīng)理?！侗c火之歌：數(shù)據(jù)分析的前世今生》系列就到這里。

以下是這個(gè)系列文章的參考書目，可以一讀：

《大數(shù)據(jù)時(shí)代》
《深入淺出數(shù)據(jù)分析》
《金字塔原理》
《增長(zhǎng)黑客》

相關(guān)閱讀

冰與火之歌：數(shù)據(jù)分析的前世今生（一）

作者：曹思龍，微信公眾號(hào)：及策云課堂。Admaster產(chǎn)品經(jīng)理，畢業(yè)于北京郵電大學(xué)，知乎專欄作者

本文由 @曹思龍原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可，禁止轉(zhuǎn)載。

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App

阿瞞

美團(tuán)數(shù)據(jù)產(chǎn)品專家

12篇作品 462710總閱讀量

大模型在金融領(lǐng)域落地會(huì)遇到哪些坑？

09-295168 瀏覽

交互設(shè)計(jì)中常見的7個(gè)誤區(qū)，你中了幾個(gè)？

02-087390 瀏覽

聊聊做好數(shù)字營(yíng)銷的兩大步驟

01-062985 瀏覽

數(shù)據(jù)分析，如何指導(dǎo)運(yùn)營(yíng)決策

04-1216371 瀏覽

LLM趨勢(shì)下的數(shù)字化轉(zhuǎn)型范式變革

08-162782 瀏覽

評(píng)論

PM迷

寫的很nice，希望可以一直寫下去。

最近回復(fù)
Meldy咕嘟

很棒，突然想起應(yīng)該把大學(xué)的概率統(tǒng)計(jì)書拿出來看了，表示已經(jīng)忘記了貝葉斯定律的細(xì)節(jié)了

最近來自中國(guó) 回復(fù)
音傾

沙發(fā)，等到第二篇很不錯(cuò)喲~

最近來自廣東回復(fù)
1. 阿瞞作者回復(fù)音傾
  
  ?? 以后每周都有~
  
  最近來自北京回復(fù)