阿里云ODPS,大數(shù)據(jù)進入電廠模式
摘要 :?開放式大數(shù)據(jù)平臺的出現(xiàn)無疑有助于上述問題的解決。蒸汽機時代的能源供給是分散的,交流電的發(fā)明讓電力時代的能源供給在“云”端,這一進步激發(fā)第二次工業(yè)革命讓所有人可以用上電能。阿里ODPS實際上就是將大數(shù)據(jù)基礎(chǔ)能力從分散變?yōu)榧校尨髷?shù)據(jù)更早進入工業(yè)實踐時代。
號稱是阿里云截止目前最重要的產(chǎn)品,“核武級”大數(shù)據(jù)平臺ODPS近日正式商用。簡單地將,通過ODPS在線服務(wù),小型公司花幾百元即可分析海量數(shù)據(jù)。ODPS可在6小時內(nèi)處理100PB數(shù)據(jù),相當(dāng)于1億部高清電影,聯(lián)想到此前百度的大數(shù)據(jù)引擎,華為在去年發(fā)布了大數(shù)據(jù)平臺產(chǎn)品FusionInsight,以及天河2號超級計算機的能力開放,可以看到中國正在經(jīng)歷一波大數(shù)據(jù)能力開放潮流。
ODPS是什么?開放式大數(shù)據(jù)引擎
ODPS全名Open Data Processing Service,開放數(shù)據(jù)處理服務(wù)。這一服務(wù)是PaaS(平臺即服務(wù))云計算平臺催生的產(chǎn)物,ODPS將阿里擁有的大數(shù)據(jù)存儲和處理能力開放出來供外部公司使用,可能是大型公司,也可能是中小企業(yè)甚至創(chuàng)業(yè)團隊。最少支付幾百元便可在線快速完成海量數(shù)據(jù)的處理。
ODPS項目在5年之前便已啟動,但關(guān)于其未來走向、平臺定位、與阿里云其他業(yè)務(wù)之間的關(guān)系上存在諸多不清晰之處,發(fā)展緩慢。直到去年10月,阿里云成功實施單集群5000臺項目以及跨機房業(yè)務(wù)調(diào)度,在此基礎(chǔ)上,ODPS的發(fā)展開始加速,并于今年正式商用。
開放之前,ODPS通過阿里小貸業(yè)務(wù)、阿里媽媽廣告平臺等業(yè)務(wù)進行了驗證。通過ODPS進行賣家的信用額度評估、用戶點擊行為預(yù)測模型訓(xùn)練。阿里的整個淘寶系和支付寶數(shù)據(jù)倉庫,都架設(shè)在ODPS上,顯而易見這是阿里大數(shù)據(jù)最重要的基礎(chǔ)軟件部署。為了驗證ODPS的計算能力,阿里邀請華大基因利用ODPS進行基因測序,耗時不到傳統(tǒng)方式的十分之一;邀請藥監(jiān)部門利用ODPS,全程監(jiān)管藥品流向,解決假藥問題。 現(xiàn)在則將驗證過ODPS正式開放出來商用,實際上是將阿里能夠承載雙十一和支付寶平臺宏大的交易量的計算和數(shù)據(jù)能力開放出來。
阿里野心:做大數(shù)據(jù)的軍火商
在阿里”數(shù)據(jù)、平臺和金融”戰(zhàn)略支撐下,大數(shù)據(jù)已成為阿里的重中之重。馬云在多處場合提到人類正在進入DT時代。
對大數(shù)據(jù)最有話語權(quán)的美國公司莫過于Google和Amazon,Google有舉世聞名的數(shù)據(jù)中心、基于Colossus的云,比MapReduce更快的Caffeine,分布式存儲Colossus比GFS還要先進,還有大數(shù)據(jù)分析管理工具Dremel、 PowerDrill、Instant和Pregel,基于這些,Google可以做到世界杯8強的準(zhǔn)確預(yù)測和流感趨勢預(yù)測;Amazon除了AWS是最早的IaaS平臺外,去年曾宣城可以通過大數(shù)據(jù)預(yù)測用戶的購買行為進行提前發(fā)貨。
對應(yīng)到中國則是阿里和百度,此前阿里曾與氣象局合作為其提供大數(shù)據(jù)服務(wù),眾所周知,氣象科學(xué)一直是非常典型的海量數(shù)據(jù)型業(yè)務(wù),在雙十一期間還可以預(yù)測用戶余額寶的消費取現(xiàn)行為,菜鳥網(wǎng)絡(luò)這一開放式的物流體系的智能調(diào)度同樣極度依賴大數(shù)據(jù)。百度則具有世界杯、旅游、高考預(yù)測服務(wù),世界杯預(yù)測準(zhǔn)確率超過谷歌。
阿里和百度思路并不相同,阿里做的是大數(shù)據(jù)的集市,擁有數(shù)據(jù)的可以提交上去,阿里提供基礎(chǔ)設(shè)施和能力,第三方亦可幫助數(shù)據(jù)擁有者進行挖掘分析。阿里更多是在搭建數(shù)據(jù)的流通、收集和分享的底層架構(gòu)。這些底層架構(gòu)是其他公司利用大數(shù)據(jù)武器,阿里則充當(dāng)軍火商的角色。而ODPS正是屬于底層架構(gòu)的一部分,它是可以為所有公司和開發(fā)者所有的大數(shù)據(jù)能力。
ODPS宣稱可與Google和Amazon等頂級玩家進行技術(shù)對決。除了在支持的數(shù)據(jù)規(guī)模和處理時間絲毫不遜色之外,ODPS還擁有更強的處理能力,未來將比Google BigQuery更強大,支持更豐富的SQL語法(BigQuery最多支持SQL Like語句),還將提供MapReduce編程模型和機器學(xué)習(xí)建模能力。在去年阿里云實現(xiàn)了5000節(jié)點單集群能力,并可實現(xiàn)跨機房調(diào)度,在計算基礎(chǔ)設(shè)施上趕上國外巨頭的水平。ODPS則是在軟件層面的大數(shù)據(jù)技術(shù)水平體現(xiàn)。
大數(shù)據(jù)能力高度集中進入電廠模式
工業(yè)革命之后人們對能源和材料進行了充分的應(yīng)用,信息革命帶給人們最大的財富實質(zhì)是其所比特化的數(shù)據(jù),但在過去幾十年人們對數(shù)據(jù)的利用還處于蠻荒時代。隨著大數(shù)據(jù)概念對深入人心,企業(yè)、科研教育機構(gòu)、政府部門對大數(shù)據(jù)愈發(fā)重視,人類已經(jīng)進入大數(shù)據(jù)時代。
大數(shù)據(jù)正在落地,交通、體育、衛(wèi)生、教育、電商等諸多領(lǐng)域均已在應(yīng)用大數(shù)據(jù)。不過,這個領(lǐng)域的玩家?guī)缀醵际乔逡簧目萍季揞^,Google、Amazon、微軟、阿里和百度等公司走在最前面。運營商、銀行、政府部門雖然擁有海量數(shù)據(jù)但卻鮮有典型應(yīng)用案例,一些中小型公司要么缺乏數(shù)據(jù),要么缺乏數(shù)據(jù)挖掘能力。
開放式大數(shù)據(jù)平臺的出現(xiàn)無疑有助于上述問題的解決。蒸汽機時代的能源供給是分散的,交流電的發(fā)明讓電力時代的能源供給在“云”端,這一進步激發(fā)第二次工業(yè)革命讓所有人可以用上電能。阿里ODPS實際上就是將大數(shù)據(jù)基礎(chǔ)能力從分散變?yōu)榧?,讓大?shù)據(jù)更早進入工業(yè)實踐時代。
阿里最近的布局體現(xiàn)了對大數(shù)據(jù)開放的重視。過去阿里云只是提供基礎(chǔ)設(shè)施租賃的IaaS,現(xiàn)在則走向IaaS+PaaS+SaaS結(jié)合,譬如中小站長可以將數(shù)據(jù)上傳給阿里云搜索進行索引,這樣中小網(wǎng)站就可以輕松擁有站內(nèi)搜索功能。阿里云搜索的思路正是ODPS的雛形:都是將數(shù)據(jù)交給“云”處理。
華為此前推出了大數(shù)據(jù)處理平臺FusionInsight,其沒有任何互聯(lián)網(wǎng)積累,鮮有消費型大數(shù)據(jù),必然會傾向于它所擅長的底層通信和設(shè)備支持。百度大數(shù)據(jù)引擎擁有三件套:開放云、數(shù)據(jù)工廠和百度大腦,在通用型大數(shù)據(jù)領(lǐng)域頗具實力。阿里擅長的則是商業(yè)數(shù)據(jù)的處理,可以將基礎(chǔ)設(shè)施和軟件能力一起提供出來。未來中國的大數(shù)據(jù)能力,恐怕會像阿里們高度集中,它們是大數(shù)據(jù)的“電老大”,其他公司按需消費其大數(shù)據(jù)能力。
作者微博@互聯(lián)網(wǎng)阿超,微信SuperSofter
未來已來,