久久亚洲国产成人影院,欧美性XXXX极品少妞,久久精品人妻综合AV

搜索

APP

起點課堂會員權益

職業體系課特權

線下行業大會特權

個人IP打造特權

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業技能直播

會員專屬社群

榮耀標識

發布

注冊 | 登錄

大數據的誤區：數據統計≠大數據

小紅帽

2016-03-04

1 評論 9794 瀏覽 172 收藏

14 分鐘

大數據太火了，被廣泛應用到各行各業，而近階段又有著明顯的過熱跡象。大數據到底是一個營銷詞匯，還是一個方法論？本文作者老李正是一家大數據服務提供商的資深員工，他所做的項目就是針對不同行業進行大數據分析。他認為，關于大數據你首先必須有一個基本認識，那就是“大量的數據并非一定具有價值”。另外，數據統計并不等同于大數據，數據統計和大數據的區別就在于人工智能。長文慎入：

近兩年來，“大數據”被廣泛應用到各行各業，而近階段又有著明顯的過熱跡象。從央視的春運遷徙圖到姚晨看到微博數據的驚呼；從兩會期間的兩會大數據，到《星星》都叫獸的高低領毛衣，“大數據”被人們推到了一個前所未有的高度，同時也從一個高精尖的科研方向變成了一個世人皆知的營銷詞匯。

我既沒有資格代表學術界，更沒有資格來判定誰是誰非。我只能就自己的工作經歷，來談一下我眼中的大數據：

什么是大數據？

百度百科對大數據的定義是這樣的：大數據（big data）或稱巨量資料，指的是所涉及的資料量規模巨大到無法透過目前主流軟件工具，在合理時間內達到擷取、管理、處理、并整理成為幫助企業經營決策更積極目的的資訊。

Gartner給出了這樣的定義：“大數據”是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。

個人認為Gartner的定義更為貼切?！靶绿幚砟Ｊ健笔且粋€很關鍵的詞匯，這也是我所理解的“大數據”區別于傳統統計分析等最關鍵的特征之一。這個所謂的“新處理模式”有兩層含義：

由于海量的數據，需要更高效的存儲和處理技術，Hadoop成為了大數據時代的標志；
如果你認為大數據就等于Hadoop，那就大錯特錯了。Hadoop只是大數據時代的一個必要條件，大數據還有一個明顯的標志是數據挖掘和人工智能的緊密結合。這也是我理解的“大數據”與現在很多所謂“大數據”項目最明顯的區別之一。我會在后面的案例中給大家展開。

除了上面的“新處理模式”上的區別，個人認為還有一個最主要的區別是：數據統計分析是基于已有數據的縱向歸類，而大數據是基于對已有海量數據的處理，對還未產生的數據作出預測和推薦。數據統計是已經發生的事情，而大數據往往被用于還沒有發生的事情預測或者推薦中。

預測和推薦，是如何實現的？

目前主要的推薦算法大致可以分為兩類。一個是基于行為，一個是基于內容。當然，針對不同的領域，不同的預測和推薦的對象，又會有十余種算法。這就不是本文展開的內容了。

基于行為的分析，顧名思義，即對用戶在互聯網、移動互聯網留下的“痕跡”，即瀏覽、點擊、收藏、購買、二次購買的分析，得出未來會選擇購買的預測和推薦結果。基于行為的分析，屬于群體智慧，綜合利用群體用戶的行為偏好。用戶之間會相互影響，更加符合現實世界中的用戶行為。

? 有關大數據的誤區：數據統計≠大數據

圖1、電商基于行為的推薦漏斗算法

基于內容的分析，包括對文字、圖片、音頻、視頻等信息的分析，得出預測和推薦的結論。內容的“基因”和用戶的偏好相匹配，最有代表的是潘多拉的音樂推薦項目，其將曲庫中所有歌曲都由400多位專家打上標簽，然后建立個人與音樂的聯系，從而完成音樂的推薦。內容的分析只針對個人，與用戶之間關系無關。

大數據到底能做什么

現在談這個問題可能會讓大家笑話，似乎所有人都知道大數據能干這個，能干那個，最后連我們自己都覺得可笑。大數據已經都不是被“妖魔化”了，是“娛樂化”。大數據似乎是個離我們忽遠又忽近的事物了，變得不真實起來。

好吧，我還是結合從業經歷來說說大數據“解決過什么問題”吧：簡單地來說，大數據可以幫我們解決決策和選擇的問題。

天氣預報就是一個最古老而且眾所周知的預測。你可以根據預報來決定明天穿什么衣服，是否要帶雨傘，等等；

近兩年來，大數據被應用到影視制片行業，基于對觀眾偏好的分析，去預測、設計觀眾喜歡的劇情，找觀眾喜愛的演員出演相關的角色，甚至可以去預測票房。這些所有的預測都是基于數據的基礎上，經過一定的模型處理，得到接近真實的結論。從某種程度上給決策者決策的依據，比如《紙牌屋》和《星星》。

大數據還有一個重要的作用，就是解決人們的“選擇”問題。別笑，無論你的年齡、性別、教育背景，人們目前都面臨著前所未有的選擇問題。講的學術一些，這是由于“長尾效應”導致的問題；講得通俗一些，就是由于日益增多的可選擇的對象和我們自身的處理能力之間的矛盾。

科技的進步讓人變得更懶，也就是我們自身的處理能力降低，無論是主觀的還是客觀的。而可被選擇的對象卻在日益增多。從紛繁復雜的商品（電商），到海量曲庫中的樂曲；從婚戀網站的男女朋友，到交通管理的信號燈。

基于人工智能下的大數據，就是可以使人們“變懶”的一個手段?；谀愕臍v史行為，判斷出你可能的喜好，乃至需求，將最佳結果，推薦給你。這就是大數據，她是你的貼心管家，或者說是最懂你的朋友。

一個最經典的案例是沃爾瑪曾經做過的“啤酒”和“尿布”調研：沃爾瑪在研究中發現，一類顧客經常在購買尿布的同時也購買啤酒。尿布跟啤酒自然是毫無關聯的兩個品類的商品，從個人經驗上來看，根本想不到二者的聯系。后來發現，這是一類社會現象所導致的。美國有很多年輕夫婦，尿布用完后，女主人在家帶孩子，而男主人就去超市買尿布。買完尿布之后，男主人通常會順帶著買些啤酒。

上述例子說明，數據經?？梢宰屇惆l現看似不合理不合邏輯但卻存在，并且經常發生的現象。

再舉個例子，北京的交通擁堵是地球人都知道的事情。尤其是早晚高峰，這已經不需要預測了。但如果根據歷史交通數據，再經過數學模型，計算出一個全北京最佳的交通信號燈管理系統，這就屬于大數據的范疇了。

有關大數據的誤區：數據統計≠大數據