創(chuàng)業(yè)必稱(chēng)“大數(shù)據(jù)”?是時(shí)候重新審視大數(shù)據(jù)的價(jià)值了!

2 評(píng)論 13701 瀏覽 37 收藏 25 分鐘

大數(shù)據(jù)到底是什么?它是一項(xiàng)技術(shù)、一個(gè)產(chǎn)業(yè)還是一種思維方式?當(dāng)越來(lái)越多的人將興趣轉(zhuǎn)移到AI、VR上時(shí),也許是時(shí)候重新審視大數(shù)據(jù)的價(jià)值了。

“大數(shù)據(jù)”這個(gè)概念大約是從2011年開(kāi)始火起來(lái)的,如果從Apache Hadoop項(xiàng)目的正式啟動(dòng)算起,海量數(shù)據(jù)的分布式存儲(chǔ)、管理和計(jì)算技術(shù)已有10年的歷史。這10年里,創(chuàng)業(yè)圈逐漸流行起一種通病,但凡創(chuàng)業(yè)必稱(chēng)“大數(shù)據(jù)”,似乎每個(gè)創(chuàng)業(yè)項(xiàng)目都會(huì)多少與之關(guān)聯(lián)。

在IT領(lǐng)域,一項(xiàng)技術(shù)的價(jià)值得以驗(yàn)證并實(shí)現(xiàn)往往需要走完四個(gè)階段:技術(shù)原創(chuàng)、開(kāi)源、產(chǎn)業(yè)化和廣泛應(yīng)用。在這個(gè)過(guò)程中,新技術(shù)的使用從互聯(lián)網(wǎng)巨頭企業(yè)蔓延到整個(gè)互聯(lián)網(wǎng)領(lǐng)域,并隨著其產(chǎn)業(yè)生態(tài)的日臻完善,最終應(yīng)用到更廣泛的社會(huì)和行業(yè)領(lǐng)域?!按髷?shù)據(jù)”也不例外,它經(jīng)歷了底層技術(shù)的興起和發(fā)展、產(chǎn)業(yè)生態(tài)的構(gòu)建,正逐步滲透到每個(gè)企業(yè)的數(shù)據(jù)化戰(zhàn)略之中。只有把握整條脈絡(luò),窺探“大數(shù)據(jù)”的全貌,才能理解這項(xiàng)技術(shù)的緣起和未來(lái)。

技術(shù)篇

移動(dòng)互聯(lián)網(wǎng)時(shí)代,數(shù)據(jù)量呈現(xiàn)指數(shù)級(jí)增長(zhǎng),其中文本、音視頻等非結(jié)構(gòu)數(shù)據(jù)的占比已超過(guò)85%,未來(lái)將進(jìn)一步增大。Hadoop架構(gòu)的分布式文件系統(tǒng)、分布式數(shù)據(jù)庫(kù)和分布式并行計(jì)算技術(shù)解決了海量多源異構(gòu)數(shù)據(jù)在存儲(chǔ)、管理和處理上的挑戰(zhàn)。

從2006年4月第一個(gè)Apache Hadoop版本發(fā)布至今,Hadoop作為一項(xiàng)實(shí)現(xiàn)海量數(shù)據(jù)存儲(chǔ)、管理和計(jì)算的開(kāi)源技術(shù),已迭代到了v2.7.2穩(wěn)定版,其構(gòu)成組件也由傳統(tǒng)的三駕馬車(chē)HDFS、MapReduce和HBase社區(qū)發(fā)展為由60多個(gè)相關(guān)組件組成的龐大生態(tài),包括數(shù)據(jù)存儲(chǔ)、執(zhí)行引擎、編程和數(shù)據(jù)訪問(wèn)框架等。其生態(tài)系統(tǒng)從1.0版的三層架構(gòu)演變?yōu)楝F(xiàn)在的四層架構(gòu):

1

底層——存儲(chǔ)層

現(xiàn)在互聯(lián)網(wǎng)數(shù)據(jù)量達(dá)到PB級(jí),傳統(tǒng)的存儲(chǔ)方式已無(wú)法滿(mǎn)足高效的IO性能和成本要求,Hadoop的分布式數(shù)據(jù)存儲(chǔ)和管理技術(shù)解決了這一難題。HDFS現(xiàn)已成為大數(shù)據(jù)磁盤(pán)存儲(chǔ)的事實(shí)標(biāo)準(zhǔn),其上層正在涌現(xiàn)越來(lái)越多的文件格式封裝(如Parquent)以適應(yīng)BI類(lèi)數(shù)據(jù)分析、機(jī)器學(xué)習(xí)類(lèi)應(yīng)用等更多的應(yīng)用場(chǎng)景。未來(lái)HDFS會(huì)繼續(xù)擴(kuò)展對(duì)于新興存儲(chǔ)介質(zhì)和服務(wù)器架構(gòu)的支持。另一方面,區(qū)別于常用的Tachyon或Ignite,分布式內(nèi)存文件系統(tǒng)新貴Arrow為列式內(nèi)存存儲(chǔ)的處理和交互提供了規(guī)范,得到了眾多開(kāi)發(fā)者和產(chǎn)業(yè)巨頭的支持。

區(qū)別于傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù),HBase適合于非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)。而Cloudera在2015年10月公布的分布式關(guān)系型數(shù)據(jù)庫(kù)Kudu有望成為下一代分析平臺(tái)的重要組成,它的出現(xiàn)將進(jìn)一步把Hadoop市場(chǎng)向傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)市場(chǎng)靠攏。

中間層——管控層

管控層對(duì)Hadoop集群進(jìn)行高效可靠的資源及數(shù)據(jù)管理。脫胎于MapReduce1.0的YARN已成為Hadoop 2.0的通用資源管理平臺(tái)。如何與容器技術(shù)深度融合,如何提高調(diào)度、細(xì)粒度管控和多租戶(hù)支持的能力,是YARN需要進(jìn)一步解決的問(wèn)題。另一方面,Hortonworks的Ranger、Cloudera 的Sentry和RecordService組件實(shí)現(xiàn)了對(duì)數(shù)據(jù)層面的安全管控。

上層——計(jì)算引擎層

在搜索引擎時(shí)代,數(shù)據(jù)處理的實(shí)時(shí)化并不重要,大多采用批處理的方式進(jìn)行計(jì)算。但在SNS、電子商務(wù)、直播等在線應(yīng)用十分普及的今天,在不同場(chǎng)景下對(duì)各類(lèi)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行實(shí)時(shí)處理就變得十分重要。Hadoop在底層共用一份HDFS存儲(chǔ),上層有很多個(gè)組件分別服務(wù)多種應(yīng)用場(chǎng)景,具備“單一平臺(tái)多種應(yīng)用”的特點(diǎn)。

例如,Spark組件善于實(shí)時(shí)處理流數(shù)據(jù),Impala實(shí)現(xiàn)諸如OLAP的確定性數(shù)據(jù)分析,Solr組件適用于搜索等探索性數(shù)據(jù)分析,Spark、MapReduce組件可以完成邏輯回歸等預(yù)測(cè)性數(shù)據(jù)分析,MapReduce組件可以完成數(shù)據(jù)管道等ETL類(lèi)任務(wù)。其中,最耀眼的莫過(guò)于Spark了,包括IBM、Cloudera、Hortonworks在內(nèi)的產(chǎn)業(yè)巨頭都在全力支持Spark技術(shù),Spark必將成為未來(lái)大數(shù)據(jù)分析的核心。

頂層——高級(jí)封裝及工具層

Pig、Hive等組件是基于MapReduce、Spark等計(jì)算引擎的接口及查詢(xún)語(yǔ)言,為業(yè)務(wù)人員提供更高抽象的訪問(wèn)模型。Hive為方便用戶(hù)使用采用SQL,但其問(wèn)題域比MapReduce、Spark更窄,表達(dá)能力受限。Pig采用了腳本語(yǔ)言,相比于Hive SQL具備更好的表達(dá)能力。

在結(jié)構(gòu)化數(shù)據(jù)主導(dǎo)的時(shí)代,通常使用原有模型便可以進(jìn)行分析和處理,而面對(duì)如今實(shí)時(shí)變化的海量非結(jié)構(gòu)化數(shù)據(jù),傳統(tǒng)模型已無(wú)法應(yīng)對(duì)。在此背景下,機(jī)器學(xué)習(xí)技術(shù)正慢慢跨出象牙塔,進(jìn)入越來(lái)越多的應(yīng)用領(lǐng)域,實(shí)現(xiàn)自動(dòng)化的模型構(gòu)建和數(shù)據(jù)分析。

除了Mahout、MLlib、Oryx等已有項(xiàng)目,最近機(jī)器學(xué)習(xí)開(kāi)源領(lǐng)域迎來(lái)了數(shù)個(gè)明星巨頭的加入。Facebook開(kāi)源前沿深度學(xué)習(xí)工具“Torch”和針對(duì)神經(jīng)網(wǎng)絡(luò)研究的服務(wù)器“Big Sur”;Amazon啟動(dòng)其機(jī)器學(xué)習(xí)平臺(tái)Amazon Machine Learning;Google開(kāi)源其機(jī)器學(xué)習(xí)平臺(tái)TensorFlow;IBM開(kāi)源SystemML并成為Apache官方孵化項(xiàng)目;Microsoft亞洲研究院開(kāi)源分布式機(jī)器學(xué)習(xí)工具DMTK。

產(chǎn)業(yè)篇

2

一項(xiàng)技術(shù)從原創(chuàng)到開(kāi)源社區(qū)再到產(chǎn)業(yè)化和廣泛應(yīng)用往往需要若干年的時(shí)間。在原創(chuàng)能力和開(kāi)源文化依然落后的中國(guó),單純地對(duì)底層技術(shù)進(jìn)行創(chuàng)新顯然難出成果。盡管如此,在經(jīng)濟(jì)轉(zhuǎn)型升級(jí)需求的驅(qū)動(dòng)下,創(chuàng)業(yè)者大量采用C2C(Copy to China)的創(chuàng)業(yè)模式快速推動(dòng)著中國(guó)大數(shù)據(jù)產(chǎn)業(yè)的發(fā)展,產(chǎn)業(yè)生態(tài)已初步成型。

產(chǎn)業(yè)基礎(chǔ)層

如果說(shuō)數(shù)據(jù)是未來(lái)企業(yè)的核心資產(chǎn),那么數(shù)據(jù)分析師便是將資產(chǎn)變現(xiàn)的關(guān)鍵資源。以數(shù)據(jù)流通及人才培養(yǎng)和流通為目標(biāo),社區(qū)、眾包平臺(tái)、垂直媒體、數(shù)據(jù)交易平臺(tái)是數(shù)據(jù)產(chǎn)業(yè)發(fā)展壯大的土壤。

社區(qū)

大數(shù)據(jù)技術(shù)社區(qū)為產(chǎn)業(yè)建立了人才根基。社區(qū)天然具備社群和媒體屬性,自然吸引了眾多專(zhuān)業(yè)人才。正基于此,開(kāi)源中國(guó)社區(qū)(新三板掛牌企業(yè))和Bi168大數(shù)據(jù)交流社區(qū)同時(shí)開(kāi)展了代碼托管、測(cè)試、培訓(xùn)、招聘、眾包等其他全產(chǎn)業(yè)鏈服務(wù)。

眾包

人力資本的高效配置是產(chǎn)業(yè)發(fā)展的必要條件。Data Castle類(lèi)似于硅谷的Kaggle,是一家數(shù)據(jù)分析師的眾包平臺(tái)??蛻?hù)提交數(shù)據(jù)分析需求、發(fā)布競(jìng)賽,由社區(qū)內(nèi)眾多分析師通過(guò)競(jìng)賽的方式給予最優(yōu)解決方案。

垂直媒體

36大數(shù)據(jù)、數(shù)據(jù)猿、數(shù)據(jù)觀等大數(shù)據(jù)垂直媒體的出現(xiàn)推動(dòng)了大數(shù)據(jù)技術(shù)和文化的傳播。它們利用媒體的先天優(yōu)勢(shì),快速積累大量專(zhuān)業(yè)用戶(hù),因此與社區(qū)類(lèi)似,容易向產(chǎn)業(yè)鏈其他環(huán)節(jié)延伸。

數(shù)據(jù)交易平臺(tái)

數(shù)據(jù)交易平臺(tái)致力于實(shí)現(xiàn)數(shù)據(jù)資產(chǎn)的最優(yōu)化配置,推動(dòng)數(shù)據(jù)開(kāi)放和自由流通。數(shù)據(jù)堂和聚合數(shù)據(jù)主要采用眾包模式采集數(shù)據(jù)并在ETL之后進(jìn)行交易,數(shù)據(jù)以API的形態(tài)提供服務(wù)。由于保護(hù)隱私和數(shù)據(jù)安全的特殊要求,數(shù)據(jù)的脫敏是交易前的重要工序。貴陽(yáng)大數(shù)據(jù)交易所是全球范圍內(nèi)落戶(hù)中國(guó)的第一家大數(shù)據(jù)交易所,在推動(dòng)政府?dāng)?shù)據(jù)公開(kāi)和行業(yè)數(shù)據(jù)流通上具有開(kāi)創(chuàng)性的意義。

IT架構(gòu)層

開(kāi)源文化為Hadoop社區(qū)和生態(tài)帶來(lái)了蓬勃發(fā)展,但也導(dǎo)致生態(tài)的復(fù)雜化和組件的碎片化、重復(fù)化,這催生了IBM、MapR、Cloudera、Hortonworks等眾多提供標(biāo)準(zhǔn)化解決方案的企業(yè)。中國(guó)也誕生了一些提供基礎(chǔ)技術(shù)服務(wù)的公司。

Hadoop基礎(chǔ)軟件

本領(lǐng)域的企業(yè)幫助客戶(hù)搭建Hadoop基礎(chǔ)架構(gòu)。其中,星環(huán)科技TransWarp、華為FusionInsight是Hadoop發(fā)行版的提供商,對(duì)標(biāo)Cloudera CDH和Hortonworks的HDP,其軟件系統(tǒng)對(duì)Apache開(kāi)源社區(qū)軟件進(jìn)行了功能增強(qiáng),推動(dòng)了Hadoop開(kāi)源技術(shù)在中國(guó)的落地。星環(huán)科技更是上榜Gartner 2016數(shù)倉(cāng)魔力象限的唯一一家中國(guó)公司。

數(shù)據(jù)存儲(chǔ)

管理2013年“棱鏡門(mén)”后,數(shù)據(jù)安全被上升到國(guó)家戰(zhàn)略高度,去IOE正在成為眾多企業(yè)必不可少的一步。以SequoiaDB(巨杉數(shù)據(jù)庫(kù))、達(dá)夢(mèng)數(shù)據(jù)庫(kù)、南大通用、龍存科技為代表的國(guó)產(chǎn)分布式數(shù)據(jù)庫(kù)及存儲(chǔ)系統(tǒng)在銀行、電信、航空等國(guó)家戰(zhàn)略關(guān)鍵領(lǐng)域具備較大的市場(chǎng)。

數(shù)據(jù)安全

大數(shù)據(jù)時(shí)代,數(shù)據(jù)安全至關(guān)重要。青藤云安全、安全狗等產(chǎn)品從系統(tǒng)層、應(yīng)用層和網(wǎng)絡(luò)層建立多層次防御體系,統(tǒng)一實(shí)施管理混合云、多公有云的安全方案,并利用大數(shù)據(jù)分析和可視化展示技術(shù),為用戶(hù)提供了分布式框架下的WAF、防CC、抗DDoS、攔病毒、防暴力破解等安全監(jiān)控和防護(hù)服務(wù),應(yīng)對(duì)頻繁出現(xiàn)的黑客攻擊、網(wǎng)絡(luò)犯罪和安全漏洞。

通用技術(shù)層

日志分析、用戶(hù)行為分析、輿情監(jiān)控、精準(zhǔn)營(yíng)銷(xiāo)、可視化等大數(shù)據(jù)的通用技術(shù)在互聯(lián)網(wǎng)企業(yè)已有相當(dāng)成熟的應(yīng)用。如今,越來(lái)越多的非互聯(lián)網(wǎng)企業(yè)也在利用這些通用技術(shù)提高各環(huán)節(jié)的效率。

日志分析

大型企業(yè)的系統(tǒng)每天會(huì)產(chǎn)生海量的日志,這些非結(jié)構(gòu)化的日志數(shù)據(jù)蘊(yùn)含著豐富的信息。對(duì)標(biāo)于美國(guó)的Splunk,日志易和瀚思對(duì)運(yùn)維日志、業(yè)務(wù)日志進(jìn)行采集、搜索、分析、可視化,實(shí)現(xiàn)運(yùn)維監(jiān)控、安全審計(jì)、業(yè)務(wù)數(shù)據(jù)分析等功能。

用戶(hù)行為分析

移動(dòng)端用戶(hù)行為分析為提升產(chǎn)品用戶(hù)體驗(yàn),提高用戶(hù)轉(zhuǎn)化率、留存率,用戶(hù)行為分析是必不可少的環(huán)節(jié)。TalkingData和友盟等企業(yè)通過(guò)在APP/手游中接入SDK,實(shí)現(xiàn)對(duì)用戶(hù)行為數(shù)據(jù)的采集、分析與管理。大量的終端覆蓋和數(shù)據(jù)沉淀使得這類(lèi)企業(yè)具備了提供DMP和移動(dòng)廣告效果監(jiān)測(cè)服務(wù)的能力。GrowingIO更是直接面向業(yè)務(wù)人員,推出了免埋點(diǎn)技術(shù),這一點(diǎn)類(lèi)似于國(guó)外的Heap Analytics。

網(wǎng)站分析

百度統(tǒng)計(jì)、CNZZ及締元信(后兩者已與友盟合并為友盟+)等產(chǎn)品可以幫助網(wǎng)站開(kāi)發(fā)運(yùn)營(yíng)人員監(jiān)測(cè)和分析用戶(hù)的點(diǎn)擊、瀏覽等行為,這些公司也大多提供DMP和互聯(lián)網(wǎng)廣告效果監(jiān)測(cè)服務(wù)。

網(wǎng)頁(yè)爬蟲(chóng)

是一種快速搜索海量網(wǎng)頁(yè)的技術(shù)。開(kāi)源的爬蟲(chóng)技術(shù)包括Nutch這樣的分布式爬蟲(chóng)項(xiàng)目,Crawler4j、WebMagic、WebCollector等JAVA單機(jī)爬蟲(chóng)和scrapy這樣的非JAVA單機(jī)爬蟲(chóng)框架。利用這些開(kāi)源技術(shù),市場(chǎng)上出現(xiàn)了很多爬蟲(chóng)工具,其中八爪魚(yú)的規(guī)模和影響力最大,該公司也基于此工具推出了自己的大數(shù)據(jù)交易平臺(tái)數(shù)多多。

輿情監(jiān)控

智慧星光、紅麥等互聯(lián)網(wǎng)輿情公司利用網(wǎng)絡(luò)爬蟲(chóng)和NPL技術(shù),為企業(yè)用戶(hù)收集和挖掘散落在互聯(lián)網(wǎng)中的價(jià)值信息,助其完成競(jìng)爭(zhēng)分析、公關(guān)、收集用戶(hù)反饋等必要流程。

精準(zhǔn)營(yíng)銷(xiāo)

個(gè)性化推薦以完整的用戶(hù)標(biāo)簽為基礎(chǔ),精準(zhǔn)營(yíng)銷(xiāo)、個(gè)性化推薦技術(shù)在廣告業(yè)、電商、新聞媒體、應(yīng)用市場(chǎng)等領(lǐng)域得到廣泛應(yīng)用。利用SDK植入、cookie抓取、數(shù)據(jù)采購(gòu)和互換等途徑,TalkingData、百分點(diǎn)、秒針、AdMaster等眾多DSP、DMP服務(wù)商積累了大量的用戶(hù)畫(huà)像,并可實(shí)現(xiàn)用戶(hù)的精準(zhǔn)識(shí)別,通過(guò)RTB技術(shù)提高了廣告投放的實(shí)時(shí)性和精準(zhǔn)度。將用戶(hù)畫(huà)像及關(guān)聯(lián)數(shù)據(jù)進(jìn)一步挖掘,利用協(xié)同過(guò)濾等算法,TalkingData、百分點(diǎn)幫助應(yīng)用商店和電商平臺(tái)搭建了個(gè)性化推薦系統(tǒng),呈現(xiàn)出千人千面的效果。另一家利用類(lèi)似技術(shù)的典型企業(yè)Everstring則專(zhuān)注于B2B marketing領(lǐng)域,為用戶(hù)尋找匹配的企業(yè)客戶(hù)。

數(shù)據(jù)可視化

可視化是大數(shù)據(jù)價(jià)值釋放的最后一公里。大數(shù)據(jù)魔鏡、數(shù)字冰雹等公司具備豐富的可視化效果庫(kù),支持Excel、CSV、TXT文本數(shù)據(jù)以及Oracle、Microsoft SQL Server、Mysql等主流的數(shù)據(jù)庫(kù),簡(jiǎn)單拖曳即可分析出想要的結(jié)果,為企業(yè)主和業(yè)務(wù)人員提供數(shù)據(jù)可視化、分析、挖掘的整套解決方案及技術(shù)支持。

面部/圖像識(shí)別

面部/圖像識(shí)別技術(shù)已被廣泛應(yīng)用到了美艷自拍、身份識(shí)別、智能硬件和機(jī)器人等多個(gè)領(lǐng)域。Face++和Sensetime擁有人臉識(shí)別云計(jì)算平臺(tái),為開(kāi)發(fā)者提供了人臉識(shí)別接口。漢王、格靈深瞳和圖普科技則分別專(zhuān)注于OCR、安防和鑒黃領(lǐng)域。

語(yǔ)音識(shí)別/NLPNLP(自然語(yǔ)言處理)

是實(shí)現(xiàn)語(yǔ)音識(shí)別的關(guān)鍵技術(shù)??拼笥嶏w、云知聲、出門(mén)問(wèn)問(wèn)、靈聚科技、思必馳等企業(yè)已將其語(yǔ)音識(shí)別組件使用在智能硬件、智能家居、機(jī)器人、語(yǔ)音輸入法等多個(gè)領(lǐng)域。小i機(jī)器人和車(chē)音網(wǎng)則分別從智能客服和車(chē)載語(yǔ)控單點(diǎn)切入。

行業(yè)應(yīng)用層

每個(gè)行業(yè)都有其特定的業(yè)務(wù)邏輯及核心痛點(diǎn),這些往往不是大數(shù)據(jù)的通用技術(shù)能夠解決的。因此,在市場(chǎng)競(jìng)爭(zhēng)空前激烈的今天,大數(shù)據(jù)技術(shù)在具體行業(yè)的場(chǎng)景化應(yīng)用乃至整體改造,蘊(yùn)藏著巨大的商業(yè)機(jī)會(huì)。然而,受制于企業(yè)主的傳統(tǒng)思維、行業(yè)壁壘、安全顧慮和改造成本等因素,大數(shù)據(jù)在非互聯(lián)網(wǎng)行業(yè)的應(yīng)用仍處于初期,未來(lái)將加速拓展。

數(shù)據(jù)化整體解決方案

非互聯(lián)網(wǎng)企業(yè)的數(shù)據(jù)化轉(zhuǎn)型面臨著來(lái)自業(yè)務(wù)流程、成本控制及管理層面的巨大挑戰(zhàn),百分點(diǎn)、美林?jǐn)?shù)據(jù)、華院數(shù)據(jù)等服務(wù)商針對(duì)金融、電信、零售、電商等數(shù)據(jù)密集型行業(yè)提供了較為完整的數(shù)據(jù)化解決方案,并將隨著行業(yè)滲透的深入幫助更多的企業(yè)完成數(shù)據(jù)化轉(zhuǎn)型。

電子政務(wù)政府效率的高低關(guān)系到各行各業(yè)的發(fā)展和民生福祉,電子政務(wù)系統(tǒng)幫助工商、財(cái)政、民政、審計(jì)、稅務(wù)、園區(qū)、統(tǒng)計(jì)、農(nóng)業(yè)等政府部門(mén)提高管理和服務(wù)效率。由于用戶(hù)的特殊性,電子政務(wù)市場(chǎng)進(jìn)入門(mén)檻高,定制性強(qiáng),服務(wù)難度大。典型的服務(wù)商包括龍信數(shù)據(jù)、華三、國(guó)雙、九次方等。

智慧城市

智慧城市就是運(yùn)用信息和通信技術(shù)手段感測(cè)、分析、整合城市運(yùn)行核心系統(tǒng)的各項(xiàng)關(guān)鍵信息,從而對(duì)包括民生、環(huán)保、公共安全、城市服務(wù)、工商業(yè)活動(dòng)在內(nèi)的各種需求做出智能響應(yīng)。華三、華為、中興、軟通動(dòng)力、大漢科技等公司具備強(qiáng)大的軟硬件整合能力、豐富的市政合作經(jīng)驗(yàn)和資源積累,是該領(lǐng)域的典型服務(wù)商。

金融大數(shù)據(jù)技術(shù)

在金融行業(yè)主要應(yīng)用在征信、風(fēng)控、反欺詐和量化投資領(lǐng)域。聚信立、量化派結(jié)合網(wǎng)絡(luò)數(shù)據(jù)、授權(quán)數(shù)據(jù)和采購(gòu)數(shù)據(jù)為諸多金融機(jī)構(gòu)提供貸款者的信用評(píng)估報(bào)告;閃銀奇異對(duì)個(gè)人信用進(jìn)行在線評(píng)分;同盾科技倡導(dǎo)“跨行業(yè)聯(lián)防聯(lián)控”,提供反欺詐SaaS服務(wù);91征信主打多重負(fù)債查詢(xún)服務(wù);數(shù)聯(lián)銘品搭建第三方企業(yè)數(shù)據(jù)平臺(tái),提供針對(duì)企業(yè)的全息畫(huà)像,為金融和征信決策做參考。通聯(lián)數(shù)據(jù)和深圳祥云則專(zhuān)注于量化交易。

影視/娛樂(lè)

中國(guó)電影的市場(chǎng)規(guī)模已居全球第二,電影產(chǎn)業(yè)的投前風(fēng)控、精準(zhǔn)營(yíng)銷(xiāo)、金融服務(wù)存在巨大的市場(chǎng)空間。艾曼、藝恩基于影視娛樂(lè)行業(yè)的數(shù)據(jù)和資源積累,抓取全網(wǎng)的娛樂(lè)相關(guān)信息,提供影視投資風(fēng)控、明星價(jià)值評(píng)估、廣告精準(zhǔn)分發(fā)等服務(wù)。牧星人影視采集演員檔期、性別、外形、社交關(guān)系、口碑以及劇組預(yù)算等數(shù)據(jù),為劇組招募提供精準(zhǔn)推薦。

農(nóng)業(yè)大數(shù)據(jù)

在農(nóng)業(yè)主要應(yīng)用在農(nóng)作物估產(chǎn)、旱情評(píng)估、農(nóng)作物長(zhǎng)勢(shì)監(jiān)測(cè)等領(lǐng)域。由于農(nóng)業(yè)信息資源分散、價(jià)值密度低、實(shí)時(shí)性差,服務(wù)商需要有專(zhuān)業(yè)的技術(shù)背景和行業(yè)經(jīng)驗(yàn)。典型企業(yè)包括太谷雨田、軟通動(dòng)力、武漢禾訊科技等。行業(yè)整體數(shù)據(jù)化程度低、進(jìn)入門(mén)檻高。

人才招聘

我國(guó)人才招聘行業(yè)缺乏對(duì)人才與職位的科學(xué)分析,沒(méi)有嚴(yán)謹(jǐn)?shù)臄?shù)據(jù)體系和分析方法。E成招聘、北森、搜前途、哪上班基于全網(wǎng)數(shù)據(jù)獲取候選人完整畫(huà)像,通過(guò)機(jī)器學(xué)習(xí)算法幫助企業(yè)進(jìn)行精準(zhǔn)人崗匹配;內(nèi)聘網(wǎng)基于文本分析,實(shí)現(xiàn)簡(jiǎn)歷和職位描述的格式化和自動(dòng)匹配。

醫(yī)療衛(wèi)生

大數(shù)據(jù)在醫(yī)療行業(yè)主要應(yīng)用于基因測(cè)序、醫(yī)療檔案整合和分析、醫(yī)患溝通、醫(yī)療機(jī)構(gòu)數(shù)據(jù)化和新藥研制等環(huán)節(jié)。華大基因和解碼DNA提供個(gè)人全基因組測(cè)序和易感基因檢測(cè)等服務(wù)。杏樹(shù)林面向醫(yī)生群體推出了電子病歷夾、醫(yī)學(xué)文獻(xiàn)庫(kù)等APP。醫(yī)渡云則致力于與領(lǐng)先的大型醫(yī)院共建“醫(yī)療大數(shù)據(jù)”平臺(tái),提高醫(yī)院效率。

企業(yè)轉(zhuǎn)型篇

盡管技術(shù)的日益創(chuàng)新和逐漸完善的產(chǎn)業(yè)配套創(chuàng)造了良好的外部環(huán)境,只有將“數(shù)據(jù)驅(qū)動(dòng)”的理念根植于企業(yè)本身才能充分發(fā)揮大數(shù)據(jù)的價(jià)值。對(duì)于一家企業(yè)來(lái)說(shuō),真正的數(shù)據(jù)化轉(zhuǎn)型絕不僅僅是互聯(lián)網(wǎng)營(yíng)銷(xiāo)或輿情監(jiān)控這么簡(jiǎn)單,它需要戰(zhàn)略層面的規(guī)劃、管理制度的革新和執(zhí)行層面的堅(jiān)決。這里提出了數(shù)據(jù)化轉(zhuǎn)型的8個(gè)步驟,這些建議并沒(méi)有必然的時(shí)間先后或邏輯關(guān)系,藏在背后的大數(shù)據(jù)理念,或許更加重要。

3

1. 數(shù)據(jù)全面采集

要求企業(yè)采集并存儲(chǔ)企業(yè)生產(chǎn)經(jīng)營(yíng)中的一切數(shù)據(jù),形成企業(yè)數(shù)據(jù)資產(chǎn)的理念。

2. 整理數(shù)據(jù)資源,建立數(shù)據(jù)標(biāo)準(zhǔn)形成管理

成立數(shù)據(jù)委員會(huì),建立數(shù)據(jù)目錄和數(shù)據(jù)標(biāo)準(zhǔn),對(duì)數(shù)據(jù)進(jìn)行分級(jí)分權(quán)限的管理,實(shí)現(xiàn)數(shù)據(jù)的統(tǒng)一管理和可追溯。隨時(shí)了解哪位員工在什么時(shí)間點(diǎn)在哪一臺(tái)設(shè)備上運(yùn)用何種權(quán)限如何使用。

3. 建設(shè)數(shù)據(jù)管理平臺(tái)

建設(shè)具備存儲(chǔ)災(zāi)備功能的數(shù)據(jù)中心,以業(yè)務(wù)需要為引導(dǎo),定做一套數(shù)據(jù)組織和管理的解決方案,硬件方面強(qiáng)調(diào)魯棒性和可擴(kuò)展性,沒(méi)有必要一開(kāi)始就投入大量經(jīng)費(fèi)。

4. 建立海量數(shù)據(jù)的深入分析挖掘能力

培養(yǎng)非結(jié)構(gòu)化數(shù)據(jù)的分析處理能力和大數(shù)據(jù)下的機(jī)器學(xué)習(xí)的能力。

5. 建立外部數(shù)據(jù)的戰(zhàn)略?xún)?chǔ)備

外部數(shù)據(jù)對(duì)于市場(chǎng)拓展、趨勢(shì)分析、競(jìng)品分析、人才招聘、用戶(hù)畫(huà)像和產(chǎn)品推薦等意義重大,而網(wǎng)站、論壇、社交媒體和電商平臺(tái)上聚集了很多有重要價(jià)值的公開(kāi)數(shù)據(jù)。

6. 建立數(shù)據(jù)的外部創(chuàng)新能力

企業(yè)通過(guò)智能終端、傳感網(wǎng)絡(luò)、物流記錄、網(wǎng)點(diǎn)記錄和電子商務(wù)平臺(tái)等等,獲得的第一手?jǐn)?shù)據(jù),很多都可以用于支持在跨領(lǐng)域交叉銷(xiāo)售、環(huán)境保護(hù)、健康管理、智慧城市、精準(zhǔn)廣告和房地價(jià)預(yù)測(cè)等方面的創(chuàng)新型應(yīng)用。

7. 推動(dòng)自身數(shù)據(jù)的開(kāi)放與共享

要充分借助社會(huì)的力量,盡最大可能發(fā)揮數(shù)據(jù)潛藏的價(jià)值。Netflix曾經(jīng)公開(kāi)了包含50多萬(wàn)用戶(hù)和17 770部電影的在線評(píng)分?jǐn)?shù)據(jù),并懸賞100萬(wàn)美元獎(jiǎng)勵(lì)能夠?qū)etflix現(xiàn)有評(píng)分預(yù)測(cè)準(zhǔn)確度提高10%的團(tuán)隊(duì)。

8. 數(shù)據(jù)產(chǎn)業(yè)的戰(zhàn)略投資布局

通過(guò)投資的方式迅速形成自己的大數(shù)據(jù)能力甚至大數(shù)據(jù)產(chǎn)業(yè)布局。

結(jié)語(yǔ)

在Gartner的炒作周期曲線上,“大數(shù)據(jù)”概念已從頂峰滑落到了谷底,產(chǎn)業(yè)似乎陷入停滯。但當(dāng)我們沿著技術(shù)起源、產(chǎn)業(yè)生態(tài)和企業(yè)戰(zhàn)略的脈絡(luò)重新審視大數(shù)據(jù)時(shí),我們發(fā)現(xiàn)大數(shù)據(jù)產(chǎn)業(yè)不僅不會(huì)停滯,反而將加速滲透到更多行業(yè)的各類(lèi)場(chǎng)景中去,并根植在企業(yè)戰(zhàn)略、管理和文化之中。只有當(dāng)各行各業(yè)的企業(yè)運(yùn)營(yíng)實(shí)現(xiàn)數(shù)據(jù)驅(qū)動(dòng)時(shí),大數(shù)據(jù)的價(jià)值才真正落地,然而這條路還很長(zhǎng)。

 

作者:星河互聯(lián)

來(lái)源:http://www.36dsj.com/archives/66073

本文來(lái)源于人人都是產(chǎn)品經(jīng)理合作媒體@36大數(shù)據(jù),作者@星河互聯(lián)

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 講解的點(diǎn)太多,不是很明白

    來(lái)自浙江 回復(fù)
  2. 看不太懂

    回復(fù)