從大數(shù)據(jù)的風水圖,來看到底大數(shù)據(jù)是怎么回事

0 評論 4118 瀏覽 11 收藏 17 分鐘

技術(shù)型的高科技創(chuàng)業(yè)公司都是喜歡閃閃發(fā)光的新東西,而“大數(shù)據(jù)”跟3年前火熱程度相比反而有些凄慘。雖然Hadoop創(chuàng)建于2006年,在“大數(shù)據(jù)”的概念興起到達白熱化是在2011年至2014年期間,當時在媒體和行業(yè)面前,大數(shù)據(jù)就是“黑金石油”。但是現(xiàn)在有了某種高原感。 2015年數(shù)據(jù)世界中時尚年輕人喜歡轉(zhuǎn)移到AI的相關(guān)概念,他們口味變成:機器智能,深度學習等。

除了不可避免的炒作周期,我們第四次年度“大數(shù)據(jù)風水圖”(見下圖),回顧過去一年發(fā)生的事情,思考這個行業(yè)的未來機會。

2016年大數(shù)據(jù)還是“回事”么?讓我們深度挖掘。

企業(yè)級技術(shù) = 艱苦的工作

其實大數(shù)據(jù)有趣的是它不是直接可以炒作的東西。

能夠獲得廣泛興趣的產(chǎn)品和服務(wù)往往是那些人們可以觸摸和感受到的,比如:移動應(yīng)用,社交網(wǎng)絡(luò),可穿戴設(shè)備,虛擬現(xiàn)實等。

但大數(shù)據(jù),從根本上說是“管道”。當然,大數(shù)據(jù)支持許多消費者或企業(yè)用戶體驗,但其核心是企業(yè)的技術(shù):數(shù)據(jù)庫,分析等:而這后面幾乎沒人能看到東西運行。

而且如果大家真正工作過的都知道,在企業(yè)中改造新技術(shù)并不大可能在一夜之間發(fā)生。

早年的大數(shù)據(jù)是在大型互聯(lián)網(wǎng)公司中(特別是谷歌,雅虎,F(xiàn)acebook,Twitter,LinkedIn等),它們重度使用和推動大數(shù)據(jù)技術(shù)。這些公司突然面臨著前所未有的數(shù)據(jù)量,沒有以前的基礎(chǔ)設(shè)施,并能招到一些最好的工程師,所以他們基本上是從零開始搭建他們所需要的技術(shù)。開源的風氣迅速蔓延,大量的新技術(shù)與更廣闊的世界共享。隨著時間推移,其中一些工程師離開了大型網(wǎng)絡(luò)公司,開始自己的大數(shù)據(jù)初創(chuàng)公司。其他的“數(shù)字原生”的公司,其中包括許多獨角獸,開始面臨跟大型互聯(lián)網(wǎng)公司同樣需求,無論有沒有基礎(chǔ)設(shè)施,它們都是這些大數(shù)據(jù)技術(shù)的早期采用者。而早期的成功導致更多的創(chuàng)業(yè)和風險投資。

現(xiàn)在一晃幾年了,我們現(xiàn)在是有大得多而棘手的機會:數(shù)據(jù)技術(shù)通過更廣泛從中型企業(yè)到非常大的跨國公司。不同的是“數(shù)字原生”的公司,不必從頭開始做。他們也有很多損失:在絕大多數(shù)的公司,現(xiàn)有的技術(shù)基礎(chǔ)設(shè)施“夠用”。這些組織也明白,宜早不宜遲需要進化,但他們不會一夜之間淘汰并更換關(guān)鍵任務(wù)的系統(tǒng)。任何發(fā)展都需要過程,預算,項目管理,導航,部門部署,全面的安全審計等。大型企業(yè)會小心謹慎地讓年輕的創(chuàng)業(yè)公司處理他們的基礎(chǔ)設(shè)施的關(guān)鍵部分。而且,一些(大多數(shù)?)企業(yè)家壓根不想把他們的數(shù)據(jù)遷移到云中,至少不是公有云。

p2.png

(大數(shù)據(jù)分析的基本流程圖)

從另一個關(guān)鍵點大家就明白了:大數(shù)據(jù)的成功是不是實現(xiàn)一小片技術(shù)(如Hadoop的或其他任何東西),而是需要放在一起的技術(shù),人員,流程的流水線。你需要采集數(shù)據(jù),存儲數(shù)據(jù),清理數(shù)據(jù),查詢數(shù)據(jù),分析數(shù)據(jù),可視化數(shù)據(jù)。這將由產(chǎn)品來完成,有些由人力來完成。一切都需要無縫集成。歸根結(jié)底,對于這一切工作,整個公司,從高級管理人員開始,需要致力于建立一個數(shù)據(jù)驅(qū)動的文化,大數(shù)據(jù)不是小事,而是全局的事。

換句話說:這是大量艱苦的工作。

部署階段

以上解釋了為什么幾年后,雖然很多高調(diào)的創(chuàng)業(yè)公司上線也拿到引人注目的風險投資,但只是到達大數(shù)據(jù)部署和早期成熟階段。

更有遠見的大公司(稱他們?yōu)椤皣L鮮者”在傳統(tǒng)的技術(shù)采用周期),在2011 – 2013年開始早期實驗大數(shù)據(jù)技術(shù),推出Hadoop系統(tǒng),或嘗試單點解決方案。他們招聘了形形色色的人,可能工作頭銜以前不存在(如“數(shù)據(jù)科學家”或“首席數(shù)據(jù)官”)。他們通過各種努力,包括在一個中央儲存庫或“數(shù)據(jù)湖”傾倒所有的數(shù)據(jù),有時希望魔術(shù)隨之而來(通常沒有)。他們逐步建立內(nèi)部競爭力,與不同廠商嘗試,部署到線上,討論在企業(yè)范圍內(nèi)實施推廣。在許多情況下,他們不知道下一個重要的拐點在哪里,經(jīng)過幾年建設(shè)大數(shù)據(jù)基礎(chǔ)架構(gòu),從他們公司業(yè)務(wù)用戶的角度來看,也沒有那么多東西去顯示它。但很多吃力不討好的工作已經(jīng)完成,而部署在核心架構(gòu)之上的應(yīng)用程序又要開始做了。

下一組的大公司(稱他們?yōu)椤霸缙诖蟊姟痹趥鹘y(tǒng)的技術(shù)采用周期)一直呆在場邊,還在迷惑的望著這整個大數(shù)據(jù)這玩意。直到最近,他們希望大供應(yīng)商(例如IBM)提供一個一站式的解決方案,但它們知道不會很快出現(xiàn)。他們看大數(shù)據(jù)全局圖很恐怖,就真的想知道是否要跟那些經(jīng)常發(fā)音相同,也就湊齊解決方案的創(chuàng)業(yè)公司一起做。他們試圖弄清楚他們是否應(yīng)該按順序并逐步工作,首先構(gòu)建基礎(chǔ)設(shè)施,然后再分析應(yīng)用層,或在同一時間做所有的,還是等到更容易做的東西出現(xiàn)。

生態(tài)系統(tǒng)正在走向成熟

同時,創(chuàng)業(yè)公司/供應(yīng)商方面,大數(shù)據(jù)公司整體第一波(那些成立于2009年至2013)現(xiàn)在已經(jīng)融資多輪,擴大他們的規(guī)模,積累了早期部署的成功與失敗教訓,也提供更成熟,久經(jīng)考驗的產(chǎn)品?,F(xiàn)在有少數(shù)是上市公司(包括HortonWorks和New Relic 它們的IPO在2014年12月),而其他(Cloudera,MongoDB的,等等)都融了數(shù)億美元。

VC投資仍然充滿活力,2016年前幾個星期看到一些巨額融資的晚期大數(shù)據(jù)初創(chuàng)公司:DataDog(9400萬),BloomReach(5600萬),Qubole(3000萬), PlaceIQ( 2500萬)這些大數(shù)據(jù)初創(chuàng)公司在2015年收到的$ 66.4億創(chuàng)業(yè)投資,占高科技投資總額的11%。

隨創(chuàng)業(yè)活動和資金的持續(xù)涌入,有些不錯的資本退出,日益活躍的高科技巨頭(亞馬遜,谷歌和IBM),公司數(shù)量不斷增加,這里就是2016年大數(shù)據(jù)全景圖:

2016年2月12日修訂,(本文最有價值的圖)

很顯然這里密密麻麻很多公司,從基本走勢方面,動態(tài)的(創(chuàng)新,推出新的產(chǎn)品和公司)已逐漸從左向右移動,從基礎(chǔ)設(shè)施層(開發(fā)人員/工程師)到分析層(數(shù)據(jù)科學家和分析師的世界)到應(yīng)用層(商業(yè)用戶和消費者),其中“大數(shù)據(jù)的本地應(yīng)用程序”已經(jīng)迅速崛起- 這是我們預計的格局。

大數(shù)據(jù)基礎(chǔ)架構(gòu):創(chuàng)新仍然有很多

正是因為谷歌十年前的MapReduce和BigTable的論文,Doug Cutting, Mike Cafarella開發(fā) 創(chuàng)建Hadoop的,所以大數(shù)據(jù)的基礎(chǔ)架構(gòu)層成熟了,也解決了一些關(guān)鍵問題。

而基礎(chǔ)設(shè)施領(lǐng)域的不斷創(chuàng)新蓬勃發(fā)展還是通過大量的開源活動。

apache-spark.png

(Spark帶著Hadoop飛)

2015年毫無疑問是Apache Spark最火的一年,這是一個開源框架,利用內(nèi)存中做處理。這開始得到了不少爭論,從我們發(fā)布了前一版本以來,Spark被各個對手采納,從IBM到Cloudera都給它相當?shù)闹С帧?Spark的意義在于它有效地解決了一些使用Hadoop很慢的關(guān)鍵問題:它的速度要快得多(基準測試表明:Spark比Hadoop的MapReduce的快10到100倍),更容易編寫,并非常適用于機器學習。

其他令人興奮的框架的不斷涌現(xiàn),并獲得新的動力,如Flink,Ignite,Samza,Kudu等。一些思想領(lǐng)袖認為Mesos的出現(xiàn)(一個框架以“對你的數(shù)據(jù)中心編程就像是單一的資源池”),不需要完全的Hadoop。即使是在數(shù)據(jù)庫的世界,這似乎已經(jīng)看到了更多的新興的玩家讓市場持續(xù),大量令人興奮的事情正在發(fā)生,從圖形數(shù)據(jù)庫的成熟(Neo4j),此次推出的專業(yè)數(shù)據(jù)庫(時間序列數(shù)據(jù)庫InfluxDB),CockroachDB,(受到谷歌Spanner啟發(fā)出現(xiàn),號稱提供二者最好的SQL和NoSQL),數(shù)據(jù)倉庫演變(Snowflake)。

大數(shù)據(jù)分析:現(xiàn)在的AI

在過去幾個月的大趨勢上,大數(shù)據(jù)分析已經(jīng)越來越注重人工智能(各種形式和接口),去幫助分析海量數(shù)據(jù),得出預測的見解。

最近AI的復活就好比大數(shù)據(jù)生的一個孩子。深度學習(獲取了最多的人工智能關(guān)注的領(lǐng)域)背后的算法大部分在幾十年前,但直到他們可以應(yīng)用于代價便宜而速度夠快的大量數(shù)據(jù)來充分發(fā)揮其潛力(Yann LeCun, Facebook深度學習研究員主管)。 AI和大數(shù)據(jù)之間的關(guān)系是如此密切,一些業(yè)內(nèi)專家現(xiàn)在認為,AI已經(jīng)遺憾地“愛上了大數(shù)據(jù)”(Geometric Intelligence)。

反過來,AI現(xiàn)在正在幫助大數(shù)據(jù)實現(xiàn)承諾。AI /機器學習的分析重點變成大數(shù)據(jù)進化邏輯的下一步:現(xiàn)在我有這些數(shù)據(jù),我該怎么從中提取哪些洞察?當然,這其中的數(shù)據(jù)科學家們 – 從一開始他們的作用就是實現(xiàn)機器學習和做出有意義的數(shù)據(jù)模型。但漸漸地機器智能正在通過獲得數(shù)據(jù)去協(xié)助數(shù)據(jù)科學家。新興產(chǎn)品可以提取數(shù)學公式(Context Relevant)或自動構(gòu)建和建議數(shù)據(jù)的科學模式,有可能產(chǎn)生最好的結(jié)果(DataRobot)。新的AI公司提供自動完成復雜的實體的標識(MetaMind,Clarifai,Dextro),或者提供強大預測分析(HyperScience)。

由于無監(jiān)督學習的產(chǎn)品傳播和提升,我們有趣的想知道AI與數(shù)據(jù)科學家的關(guān)系如何演變 – 朋友還是敵人? AI是肯定不會在短期內(nèi)很快取代數(shù)據(jù)科學家,而是希望看到數(shù)據(jù)科學家通常執(zhí)行的簡單任務(wù)日益自動化,最后生產(chǎn)率大幅提高。

通過一切手段,AI /機器學習不是大數(shù)據(jù)分析的唯一趨勢。令人興奮的趨勢是大數(shù)據(jù)BI平臺的成熟及其日益增強的實時能力(SiSense,Arcadia)

大數(shù)據(jù)應(yīng)用:一個真正的加速度

由于一些核心基礎(chǔ)架構(gòu)難題都已解決,大數(shù)據(jù)的應(yīng)用層迅速建立。

在企業(yè)內(nèi)部,各種工具已經(jīng)出現(xiàn),以幫助企業(yè)用戶操作核心功能。例如,大數(shù)據(jù)通過大量的內(nèi)部和外部的數(shù)據(jù),實時更新數(shù)據(jù),可以幫助銷售和市場營銷弄清楚哪些客戶最有可能購買??蛻舴?wù)應(yīng)用可以幫助個性化服務(wù); HR應(yīng)用程序可幫助找出如何吸引和留住最優(yōu)秀的員工;等

專業(yè)大數(shù)據(jù)應(yīng)用已經(jīng)在幾乎任何垂直領(lǐng)域都很出色,從醫(yī)療保?。ㄌ貏e是在基因組學和藥物研究),到財經(jīng)到時尚到司法(Mark43)。

兩個趨勢值得關(guān)注。

首先,很多這些應(yīng)用都是“大數(shù)據(jù)同鄉(xiāng)”,因為他們本身就是建立在最新的大數(shù)據(jù)技術(shù),并代表客戶能夠充分利用大數(shù)據(jù)的有效方式,無需部署底層的大數(shù)據(jù)技術(shù),因為這些已“在一個盒子“,至少是對于那些特定功能 – 例如,ActionIQ是建立在Spark上,因此它的客戶可以充分利用他們的營銷部門Spark的權(quán)力,而無需實際部署Spark自己 – 在這種情況下,沒有“流水線”。

第二,人工智能同樣在應(yīng)用程序級別有強大吸引力。例如,在貓捉老鼠的游戲,安全上,AI被廣泛利用,它可以識別黑客和打擊網(wǎng)絡(luò)攻擊。 “人工智能”對沖基金也開始出現(xiàn)。全部由AI驅(qū)動數(shù)字助理行業(yè)已經(jīng)去年出現(xiàn),從自動安排會議(x.ai)任務(wù),到購物為您帶來一切。這些解決方案依賴人工智能的程度差別很大,從接近100%的自動化,到個人的能力被AI增強 – 但是,趨勢是明確的。

結(jié)論

在許多方面,我們?nèi)蕴幱诖髷?shù)據(jù)的早期。盡管它發(fā)展了幾年,建設(shè)存儲和數(shù)據(jù)的過程只是第一階段的基礎(chǔ)設(shè)施。 AI /機器學習出現(xiàn)在大數(shù)據(jù)的應(yīng)用層的趨勢。大數(shù)據(jù)和AI的結(jié)合將推動幾乎每一個行業(yè)的創(chuàng)新,這令人難以置信。從這個角度來看,大數(shù)據(jù)機會甚至可能比人們認為的還大。

隨著大數(shù)據(jù)的不斷成熟,這個詞本身可能會消失或者變得過時,沒有人會使用它了。它是成功通過技術(shù),變得很普遍,無處不在,并最終無形化。

 

作者@dongfeiwww ? ? 來源@虎嗅網(wǎng)

文章鏈接:http://www.huxiu.com/article/140015/1.html?f=index_feed_article

 

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!