騰訊蔣杰:深度揭秘騰訊大數(shù)據(jù)平臺(tái)
小編推薦:長(zhǎng)文預(yù)警,干貨預(yù)警,技術(shù)部分術(shù)語眾多可能比較難理解,但本著探秘騰訊大數(shù)據(jù)的心來看,了解一下也不錯(cuò),有看不懂的地方可以暫時(shí)收藏,干貨難得噻~
騰訊業(yè)務(wù)產(chǎn)品線眾多,擁有海量的活躍用戶,每天線上產(chǎn)生的數(shù)據(jù)超乎想象,必然會(huì)成為數(shù)據(jù)大戶,為了保證公司各業(yè)務(wù)產(chǎn)品能夠使用更豐富優(yōu)質(zhì)的數(shù)據(jù)服務(wù),騰訊的大數(shù)據(jù)平臺(tái)做了那些工作?具備哪些能力?
大數(shù)據(jù),這個(gè)詞越來越熱,很多人都在談大數(shù)據(jù),其實(shí)很多張口閉口大數(shù)據(jù)的人,或許都不知道數(shù)據(jù)是如何產(chǎn)生、傳遞、存儲(chǔ)、運(yùn)算到應(yīng)用的。其實(shí)我一直感覺大數(shù)據(jù)這個(gè)東西有時(shí)候真的不是一般企業(yè)可以玩的溜的,特別是隨著傳統(tǒng)業(yè)務(wù)增長(zhǎng)放緩,以及移動(dòng)互聯(lián)網(wǎng)時(shí)代的精細(xì)化運(yùn)營(yíng),對(duì)于大數(shù)據(jù)分析和挖掘的重視程度高于以往任何時(shí)候,如何從大數(shù)據(jù)中獲取高價(jià)值,已經(jīng)成為大家關(guān)心的焦點(diǎn)問題。
騰訊業(yè)務(wù)產(chǎn)品線眾多,擁有海量的活躍用戶,每天線上產(chǎn)生的數(shù)據(jù)超乎想象,必然會(huì)成為數(shù)據(jù)大戶,為了保證公司各業(yè)務(wù)產(chǎn)品能夠使用更豐富優(yōu)質(zhì)的數(shù)據(jù)服務(wù),騰訊的大數(shù)據(jù)平臺(tái)做了那些工作?具備哪些能力?記者采訪到了騰訊數(shù)據(jù)平臺(tái)總經(jīng)理蔣杰先生,他將給大家揭秘騰訊的大數(shù)據(jù)平臺(tái)!
建設(shè)專業(yè)數(shù)據(jù)平臺(tái)、持續(xù)提升處理能力、貼身滿足業(yè)務(wù)需求、挖掘創(chuàng)造數(shù)據(jù)價(jià)值———蔣杰(騰訊大數(shù)據(jù)團(tuán)隊(duì)使命)
問: 首先還是請(qǐng)蔣總介紹一下自己和你的職業(yè)生涯。
蔣杰:我是蔣杰,目前是騰訊數(shù)據(jù)平臺(tái)部的負(fù)責(zé)人。我的第一份工作其實(shí)并非在互聯(lián)網(wǎng)行業(yè),而是在傳統(tǒng)IT行業(yè)工作了五年。隨著互聯(lián)網(wǎng)在中國(guó)的爆發(fā),我也從傳統(tǒng)IT行業(yè)轉(zhuǎn)移到了阿里巴巴,在那里的五年也是我在互聯(lián)網(wǎng)行業(yè)起步和成長(zhǎng)的五年。之后有機(jī)會(huì)與騰訊結(jié)緣,對(duì)我來說也是進(jìn)一步提升和發(fā)揮的機(jī)會(huì),于是就舉家由杭州南遷到深圳工作至今了!
十多年的職業(yè)生涯,轉(zhuǎn)換過公司也轉(zhuǎn)換了工作生活的城市,但一直不變的是我的工作始終圍繞著“數(shù)據(jù)”展開,無論是在傳統(tǒng)IT行業(yè),還是之后的互聯(lián)網(wǎng)行業(yè),“數(shù)據(jù)”始終是我工作的核心內(nèi)容,而我自己最大的職業(yè)追求也離不開“數(shù)據(jù)”,我想可能未來十年到二十年之內(nèi)我的工作還是會(huì)圍繞著“數(shù)據(jù)”,因?yàn)槲覠釔鄞髷?shù)據(jù)的技術(shù),也在不斷發(fā)掘數(shù)據(jù)中蘊(yùn)藏的巨大價(jià)值,并相信數(shù)據(jù)在不斷地改變著我們的生活!
問: 可否介紹一下目前騰訊數(shù)據(jù)平臺(tái)部的技術(shù)團(tuán)隊(duì)規(guī)模和結(jié)構(gòu)是怎樣的?
蔣杰:目前我們數(shù)據(jù)平臺(tái)部共有200多人。整個(gè)數(shù)據(jù)平臺(tái)是按照基礎(chǔ)平臺(tái)、核心應(yīng)用、產(chǎn)品包裝和質(zhì)量監(jiān)控的思路分為四部分:
數(shù)據(jù)中心,負(fù)責(zé)建設(shè)管理騰訊大數(shù)據(jù)基礎(chǔ)平臺(tái);
精準(zhǔn)推薦中心,負(fù)責(zé)研發(fā)落地以數(shù)據(jù)挖掘?yàn)楹诵牡拇髷?shù)據(jù)應(yīng)用;
產(chǎn)品中心,負(fù)責(zé)大數(shù)據(jù)產(chǎn)品的策劃和運(yùn)營(yíng);
質(zhì)量中心,負(fù)責(zé)我們的質(zhì)量監(jiān)控與保障。
問: 能簡(jiǎn)單說說騰訊目前的數(shù)據(jù)情況么?
蔣杰:要說騰訊的數(shù)據(jù)情況,得從不同的業(yè)務(wù)說起。其中主要包括以下5種:
QQ:月活躍用戶超8億,最高同時(shí)在線1.9億;在線人際關(guān)系鏈超1000億;
微信:月活躍超3.5億;日均消息量超50億;
空間:月活躍用戶超6億;日均相冊(cè)上傳超過4億;日寫操作總數(shù)過10億;
游戲:騰訊游戲月活躍用戶4.5億;手機(jī)游戲月活躍用戶近2億;
網(wǎng)站:日均瀏覽量PC側(cè)超17億,手機(jī)側(cè)近13億;日訪問用戶量PC側(cè)近1.3億;手機(jī)側(cè)近8千萬;
從這些數(shù)據(jù)可以看到,騰訊每天的數(shù)據(jù)量是一個(gè)天文的數(shù)字,目前最高日接入消息條數(shù)8000億 ,日接入數(shù)據(jù)量200TB,并發(fā)分揀業(yè)務(wù)接口10000個(gè)。
問: 能不能詳細(xì)介紹一下這個(gè)平臺(tái)架構(gòu)的架構(gòu)設(shè)計(jì)思路?
蔣杰:其實(shí)這些你都可以從騰訊目前的發(fā)展看出來,主要考慮的是數(shù)據(jù)開放、專業(yè)化、成本三點(diǎn)。
數(shù)據(jù)開放:使得公司數(shù)據(jù)集中形成數(shù)據(jù)開放,在保障數(shù)據(jù)安全性的前提下,提供自助化服務(wù)平臺(tái),從人肉服務(wù)模式轉(zhuǎn)向平臺(tái)自動(dòng)化服務(wù)方式,幫助BG數(shù)據(jù)分析人員通過自助服務(wù)的方式,降低人工成本,滿足快速增長(zhǎng)的需求。
專業(yè)化:從提供大量獨(dú)立的系統(tǒng)/工具轉(zhuǎn)變向提供集成、一體化、自動(dòng)化數(shù)據(jù)開發(fā)平臺(tái)服務(wù)。來源各個(gè)業(yè)務(wù)塊數(shù)據(jù)進(jìn)行整合和深入挖掘產(chǎn)生用戶畫像,為業(yè)務(wù)提供有價(jià)值的服務(wù),并且快速孵化更多的數(shù)據(jù)應(yīng)用。
成本與性能:優(yōu)化平臺(tái)存儲(chǔ)和計(jì)算方案、優(yōu)化的數(shù)據(jù)模型和算法、去除重復(fù)計(jì)算和存儲(chǔ);通過建設(shè)大規(guī)模集群,形成規(guī)模效應(yīng),提升平臺(tái)能力并降低成本;隨著平臺(tái)上的數(shù)據(jù)量、用戶數(shù)、任務(wù)數(shù)不斷增長(zhǎng),每個(gè)新用戶/新任務(wù)帶來的新增成本不斷降低,成本優(yōu)勢(shì)可以不斷放大。
問: 能不能詳細(xì)介紹一下這個(gè)平臺(tái)架構(gòu)的構(gòu)建過程?
蔣杰:騰訊大數(shù)據(jù)平臺(tái)現(xiàn)在主要從離線和實(shí)時(shí)兩個(gè)方向支撐海量數(shù)據(jù)接入和處理,核心的系統(tǒng)包括TDW、TRC和TDbank。
數(shù)據(jù)平臺(tái)部服務(wù)介紹
TDW是我們從2009年開始自研的騰訊分布式數(shù)據(jù)倉(cāng)庫(kù),我們基于開源的hadoop+hive架構(gòu)做了大量?jī)?yōu)化,包括兼容商業(yè)數(shù)據(jù)庫(kù)語法和hadoop單點(diǎn)消除及可擴(kuò)展性提升等。從2011年正式發(fā)布上線到2013 年初,TDW完成了對(duì)騰訊公司內(nèi)部幾乎全業(yè)務(wù)的覆蓋,成為騰訊最大的離線處理平臺(tái),目前接入的數(shù)據(jù)量已達(dá)到百P級(jí)別,并伴隨業(yè)務(wù)的發(fā)展和新業(yè)務(wù)的出現(xiàn)不斷快速增長(zhǎng)。
2010年起,隨著業(yè)務(wù)對(duì)實(shí)時(shí)數(shù)據(jù)處理需求的增強(qiáng),我們開始進(jìn)行新的平臺(tái)規(guī)劃與建設(shè):我們基于storm研發(fā)了騰訊實(shí)時(shí)計(jì)算平臺(tái)TRC,我們將社區(qū)的storm用java重新改寫以提升穩(wěn)定性和效率,并且使它運(yùn)行在我們的統(tǒng)一資源管理平臺(tái)GAIA上,進(jìn)一步提升集群效率和擴(kuò)展能力;為了方便用戶使用,我們?yōu)門RC開發(fā)了SQL和Pig用戶接口,并且在此基礎(chǔ)之上進(jìn)一步提供了可視化拖拽式開發(fā)環(huán)境,使業(yè)務(wù)開發(fā)實(shí)時(shí)計(jì)算邏輯更加方便;目前TRC每天提供幾萬億次實(shí)時(shí)計(jì)算能力,在以效果廣告為代表的趨勢(shì)預(yù)測(cè)、交叉分析、實(shí)時(shí)統(tǒng)計(jì)等領(lǐng)域的應(yīng)用上取得了非常好的效果。
與此同時(shí)我們?cè)跀?shù)據(jù)接入方面研發(fā)了實(shí)時(shí)數(shù)據(jù)接入和分發(fā)系統(tǒng)TDbank,這個(gè)系統(tǒng)使業(yè)務(wù)數(shù)據(jù)采集延遲從之前的天級(jí)別,縮短到當(dāng)前的秒級(jí)別;我們主要對(duì)TDbank做了異構(gòu)數(shù)據(jù)源適配,跨城公網(wǎng)傳輸,數(shù)據(jù)高一致性保證,分布式消息隊(duì)列等;目前TDBank每天收集的數(shù)據(jù)量接近10000億條,這些數(shù)據(jù)主要輸送給TDW和TRC,分別作離線分析和實(shí)時(shí)計(jì)算,可以說,這是我們成功支撐海量實(shí)時(shí)和離線處理的前提。
問: 能不能和我們?cè)敿?xì)的介紹騰訊大數(shù)據(jù)平臺(tái)具體模塊的底層如何實(shí)現(xiàn)以及它們的作用?
蔣杰:剛才說到了騰訊大數(shù)據(jù)平臺(tái)有如下核心模塊:TDW、TRC、TDBank、TPR和Gaia。簡(jiǎn)單來說,TDW用來做批量的離線計(jì)算,TRC負(fù)責(zé)做流式的實(shí)時(shí)計(jì)算,TPR負(fù)責(zé)精準(zhǔn)推薦,TDBank則作為統(tǒng)一的數(shù)據(jù)采集入口,而底層的Gaia則負(fù)責(zé)整個(gè)集群的資源調(diào)度和管理。
Gaia
Gaia的目標(biāo)是實(shí)現(xiàn)更高效的資源調(diào)度, 基于Yarn的通用資源調(diào)度平臺(tái),提供高并發(fā)任務(wù)調(diào)度和資源管理,實(shí)現(xiàn)集群資源共享、可伸縮性和可靠性,不僅可以為MR等離線業(yè)務(wù)提供服務(wù),還可以支持實(shí)時(shí)計(jì)算,甚至在線service業(yè)務(wù)。
Gaia 技術(shù)特點(diǎn):
強(qiáng)擴(kuò)展性:支持單cluster萬臺(tái)規(guī)模 (已達(dá)到6000節(jié)點(diǎn),14w+核,1250個(gè)pool)
高調(diào)度吞吐:毫秒級(jí)的下發(fā)效率(App并發(fā)3.5k,Container匹配時(shí)間0.2ms)
彈性內(nèi)存管理:hardlimit+softlimit相結(jié)合充分利用整機(jī)資源
多維度資源管理:新增Network IO、Disk IO等資源管理維度,提升了隔離性
豐富的用戶api:為業(yè)務(wù)提供更便捷的容災(zāi)、擴(kuò)容、縮容和升級(jí)等方式
建立“on Gaia”生態(tài)圈:支持storm、spark、MR等各種應(yīng)用
Gaia-應(yīng)用情況:
上層業(yè)務(wù)包括MR 、Hive、PIG、Strom 、Spark等
為業(yè)務(wù)提供自動(dòng)的容災(zāi)、資源管理與調(diào)度、權(quán)限管理、自動(dòng)擴(kuò)容縮容支持等
單集群8800節(jié)點(diǎn),業(yè)內(nèi)最大集群
TDBank
TDBank是從業(yè)務(wù)數(shù)據(jù)源端實(shí)時(shí)采集數(shù)據(jù),進(jìn)行預(yù)處理和分布式消息緩存后,按照消息訂閱的方式,分發(fā)給后端的離線和在線處理系統(tǒng)。
TDBank構(gòu)建數(shù)據(jù)源和數(shù)據(jù)處理系統(tǒng)間的橋梁,將數(shù)據(jù)處理系統(tǒng)同數(shù)據(jù)源解耦,為離線計(jì)算TDW和在線計(jì)算TRC平臺(tái)提供數(shù)據(jù)支持。目前通過不斷的改進(jìn),將以前Linux+HDFS的模式,轉(zhuǎn)變?yōu)榧?分布式消息隊(duì)列的模式,將以前一天才能處理的消息量縮短到2秒鐘!
從架構(gòu)上來看,TBank可以劃分為前端采集、消息接入、消息存儲(chǔ)和消息分揀等模塊。前端模塊主要針對(duì)各種數(shù)據(jù)形式(普通文件,DB增量/全量,Socket消息,共享內(nèi)存等)提供實(shí)時(shí)采集組件,提供了主動(dòng)且實(shí)時(shí)的數(shù)據(jù)獲取方式。中間模塊則是具備日接入量萬億級(jí)的基于“發(fā)布——訂閱”模型的分布式消息中間件,它起到了很好的緩存和緩沖作用,避免了因后端系統(tǒng)繁忙或故障從而導(dǎo)致的處理阻塞或消息丟失。針對(duì)不同的應(yīng)用場(chǎng)景,TDBank提供數(shù)據(jù)主動(dòng)訂閱模式,以及不同的數(shù)據(jù)分發(fā)支持(分發(fā)到TDW數(shù)據(jù)倉(cāng)庫(kù),文件,DB,HBase,Socket等)。整個(gè)數(shù)據(jù)通路透明化,只需簡(jiǎn)單配置,即可實(shí)現(xiàn)一點(diǎn)接入,整個(gè)大數(shù)據(jù)平臺(tái)可用。
TDW
騰訊分布式數(shù)據(jù)倉(cāng)庫(kù)。它支持百PB級(jí)數(shù)據(jù)的離線存儲(chǔ)和計(jì)算,為業(yè)務(wù)提供海量、高效、穩(wěn)定的大數(shù)據(jù)平臺(tái)支撐和決策支持?;陂_源軟件Hadoop和Hive進(jìn)行構(gòu)建,并且根據(jù)公司數(shù)據(jù)量大、計(jì)算復(fù)雜等特定情況進(jìn)行了大量?jī)?yōu)化和改造。
目前單集群最大規(guī)模達(dá)到6000臺(tái)、CPU(14萬核)、內(nèi)存(380 TB)、磁盤( 7.2萬塊)、存儲(chǔ)容量(100 PB);每天Job數(shù) 100萬+、每天掃描數(shù)據(jù)量6.5 PB、存儲(chǔ)利用率85%、CPU利用率90%+、網(wǎng)絡(luò)利用率90%+。
同時(shí)為了滿足挖掘分析與交互式實(shí)時(shí)查詢的計(jì)算需求,騰訊大數(shù)據(jù)使用了Spark平臺(tái)來支持挖掘分析類計(jì)算、交互式實(shí)時(shí)查詢計(jì)算以及允許誤差范圍的快速查詢計(jì)算,目前騰訊大數(shù)據(jù)擁有超過200臺(tái)的Spark集群,并獨(dú)立維護(hù)Spark和Shark分支。
TRC
基于在線消息流的實(shí)時(shí)計(jì)算模型,對(duì)海量數(shù)據(jù)進(jìn)行實(shí)時(shí)采集、流式計(jì)算、實(shí)時(shí)存儲(chǔ)、實(shí)時(shí)展示的全流程實(shí)時(shí)計(jì)算體系。
TRC是基于開源的Storm深度定制的流式處理引擎,用JAVA重寫了Storm的核心代碼。為了解決資源利用率和集群規(guī)模的問題,重構(gòu)了底層調(diào)度模塊,實(shí)現(xiàn)了任務(wù)級(jí)別的權(quán)限管理、資源分配、資源隔離,通過和Gaia這樣的資源管理框架相結(jié)合,做到了根據(jù)線上業(yè)務(wù)實(shí)際利用資源的狀況,動(dòng)態(tài)擴(kuò)容&縮容,單集群輕松超過1000臺(tái)規(guī)模。為了提高平臺(tái)的易用性和可運(yùn)維性,提供了類SQL和Piglatin這樣的過程化語言擴(kuò)展,方便用戶提交業(yè)務(wù),提升接入效率,同時(shí)提供系統(tǒng)級(jí)的指標(biāo)度量,支持用戶代碼對(duì)其擴(kuò)展,實(shí)時(shí)監(jiān)控整個(gè)系統(tǒng)運(yùn)營(yíng)環(huán)節(jié)。另外將TRC的功能服務(wù)化,通過REST API提供PAAS級(jí)別的開放,用戶無需了解底層實(shí)現(xiàn)細(xì)節(jié)就能方便的申請(qǐng)權(quán)限、資源和提交任務(wù)。
核心技術(shù):
Java for Storm
純java語言實(shí)現(xiàn),更好的可維護(hù)性
功能擴(kuò)充:解決nimbus單點(diǎn)、度量(Metrics)、安全/權(quán)限增加、動(dòng)態(tài)升級(jí)
Storm on Gaia
任務(wù)間資源隔離
靈活的權(quán)限控制策略
更優(yōu)異的容災(zāi)能力
自動(dòng)擴(kuò)縮容
PigLatin/SQL on Storm
過程化類SQL編程接口
降低實(shí)時(shí)計(jì)算業(yè)務(wù)技術(shù)門檻
提升業(yè)務(wù)開發(fā)效率
應(yīng)用場(chǎng)景:
?精準(zhǔn)推薦
?廣點(diǎn)通廣告推薦
?新聞推薦
?視頻推薦
?游戲道具推薦
?實(shí)時(shí)分析
?微信運(yùn)營(yíng)數(shù)據(jù)門戶
?效果統(tǒng)計(jì)
?訂單畫像分析
?實(shí)時(shí)監(jiān)控
?實(shí)時(shí)監(jiān)控平臺(tái)
?游戲內(nèi)接口調(diào)用
TPR
以人為核心的數(shù)據(jù)挖掘,提供“海量、精準(zhǔn)、實(shí)時(shí)”的個(gè)性化推薦服務(wù)。
實(shí)現(xiàn)從天到分鐘的轉(zhuǎn)變
計(jì)算模式演進(jìn)
應(yīng)用場(chǎng)景:
用戶畫像的建立是精準(zhǔn)推薦的基礎(chǔ)
虛擬用戶現(xiàn)實(shí)化,人口屬性的建立
長(zhǎng)期興趣+短期興趣
定制化定向人群
以效果廣告為代表的精準(zhǔn)營(yíng)銷
推薦周期短,實(shí)時(shí)性要求高
用戶短期興趣和即時(shí)行為影響力大
投放場(chǎng)景上下文和訪問人群特性
以視頻推薦為代表的內(nèi)容推薦
長(zhǎng)期興趣的累積影響力大
時(shí)段和熱點(diǎn)事件
多維度內(nèi)容相關(guān)性很重要
以電商推薦為代表的購(gòu)物推薦
長(zhǎng)期+短期興趣+即時(shí)行為綜合
最貼近現(xiàn)實(shí),季節(jié)與用戶生活信息很關(guān)鍵
追求下單與成交,支付相關(guān)
問: 以上都是騰訊大數(shù)據(jù)平臺(tái)的架構(gòu),能不能和我們分享一下具體的產(chǎn)品?
蔣杰:簡(jiǎn)單說說TOD和MTA吧。TOD,Tencent Open Data,基于騰訊在業(yè)界領(lǐng)先的大規(guī)模計(jì)算集群,提供數(shù)據(jù)采集、自助加工、任務(wù)調(diào)度等能力的云端大數(shù)據(jù)解決方案。它的優(yōu)勢(shì)是:
不用采購(gòu)任何物理設(shè)備,即開即用。
不用擔(dān)心數(shù)據(jù)量膨脹的時(shí)候無法擴(kuò)展。
只需要開發(fā)業(yè)務(wù)邏輯,其他部署、運(yùn)行、監(jiān)控都交給TOD
MTA是騰訊云分析是專業(yè)的移動(dòng)應(yīng)用數(shù)據(jù)運(yùn)營(yíng)平臺(tái),支持iOS和Android。開發(fā)者可以方便地通過嵌入統(tǒng)計(jì)SDK,實(shí)現(xiàn)對(duì)移動(dòng)應(yīng)用的全面監(jiān)測(cè),實(shí)時(shí)掌握產(chǎn)品表現(xiàn),準(zhǔn)確洞察用戶行為。騰訊云分析的優(yōu)勢(shì):
實(shí)時(shí)多維:多維度交叉分析,運(yùn)營(yíng)有的放矢
用戶畫像:用戶的興趣,年齡,性別,職業(yè)盡在掌握
云發(fā)布:一鍵發(fā)布數(shù)十個(gè)Android應(yīng)用市場(chǎng)
秒級(jí)實(shí)時(shí):秒級(jí)實(shí)時(shí),即時(shí)捕捉瞬息萬變
運(yùn)維監(jiān)控:實(shí)時(shí)監(jiān)控耗時(shí),錯(cuò)誤,放心運(yùn)維
游戲模型:針對(duì)手游玩家的生命周期分析
問: 開發(fā)中遇到了那些坑,你是怎么邁過去的?使用什么樣的硬件資源支撐了這個(gè)平臺(tái)?
蔣杰:坑確實(shí)有不少,影響最大的主要有三個(gè):
1、騰訊數(shù)據(jù)量“大”的坑:騰訊的用戶和產(chǎn)品數(shù)量都比較多,數(shù)據(jù)量大,數(shù)據(jù)分析的復(fù)雜度高,對(duì)底層技術(shù)平臺(tái)的要求自然很高。如此大量的數(shù)據(jù)和復(fù)雜分析,每天要高效、穩(wěn)定的在我們的數(shù)據(jù)平臺(tái)上運(yùn)行,對(duì)我們的平臺(tái)技術(shù)提出了很大挑戰(zhàn)。我們?cè)谙到y(tǒng)的容災(zāi)、監(jiān)控、問題處理與恢復(fù)方面做了大量工作,以確保系統(tǒng)不會(huì)出現(xiàn)問題,或者是在做重大變更時(shí),對(duì)業(yè)務(wù)的影響要盡可能的少。為了達(dá)到這個(gè)目標(biāo),在設(shè)計(jì)系統(tǒng)時(shí),我們要做到無單點(diǎn)故障,所有的模塊都是分布式的,我們現(xiàn)在基本上都做到了。
2、開源軟件的坑:為了構(gòu)建多樣化的平臺(tái),我們也積極吸收開源軟件進(jìn)行快速原型搭建,但是真正在用的時(shí)候,會(huì)發(fā)現(xiàn)很多問題,有的問題可能只有騰訊這樣的數(shù)據(jù)規(guī)模才能遇到。我們過去幾年,花費(fèi)了大量的人力物力,修復(fù)開源軟件中的bug,優(yōu)化它的性能,并基于騰訊的業(yè)務(wù)特點(diǎn)進(jìn)行定制。
3、成本的坑:當(dāng)我們的大數(shù)據(jù)系統(tǒng)逐漸成熟好用時(shí),業(yè)務(wù)的數(shù)據(jù)存儲(chǔ)和計(jì)算需求也開始暴增,隨之而來的平臺(tái)的成本壓力也非常大。平臺(tái)在過去幾年做了大量?jī)?yōu)化成本的工作,包括差異化壓縮、使數(shù)據(jù)相對(duì)文本有20倍的壓縮比、引入Hadoop Raid技術(shù)、使用估值算法代替精確計(jì)算節(jié)省計(jì)算資源等,使整個(gè)平臺(tái)的單位成本大幅度下降。
我們的硬件采用公司定制的PC Server,規(guī)模超過8000臺(tái)。每臺(tái)配備2T*12 STAT硬盤、64GB內(nèi)存和雙路32核CPU。需要提到的是,我們硬件資源是通過GAIA調(diào)度系統(tǒng)管理的,TDW、TRC等系統(tǒng)不直接申請(qǐng)硬件機(jī)器資源,而是向GIAI申請(qǐng)需要的CPU、內(nèi)存等資源。
問:對(duì)你們來說,目前面對(duì)的最大挑戰(zhàn)是什么?
蔣杰:對(duì)我們來說最大的挑戰(zhàn)更多的是在技術(shù)層面,我們必須快速跟上,還要力爭(zhēng)引領(lǐng)技術(shù)的更新和換代,以應(yīng)對(duì)互聯(lián)網(wǎng)業(yè)務(wù)的飛速變化,還有對(duì)于大數(shù)據(jù)日漸深入的應(yīng)用帶來的更高要求,未來相信大數(shù)據(jù)的技術(shù)能力對(duì)于業(yè)務(wù)發(fā)展的影響會(huì)越來越大。
我們的定位始終是以支持公司內(nèi)部的業(yè)務(wù)為主,但逐步把我們的大數(shù)據(jù)能力開放給社會(huì)服務(wù)于更多的人也是我們的責(zé)任,所以在市場(chǎng)方面我們的挑戰(zhàn)其實(shí)不是來自于商業(yè)層面,而是如何能讓開放的覆蓋面更廣,讓更多人分享我們提供的大數(shù)據(jù)服務(wù),所以如何找到更多用戶的痛點(diǎn),如何讓我們的服務(wù)更好地適配更多的用戶需求,這是我們持續(xù)面對(duì)的一項(xiàng)挑戰(zhàn)!
另外隨著大數(shù)據(jù)在社會(huì)各行各業(yè)的影響越來越廣泛深入,國(guó)家也開始對(duì)于大數(shù)據(jù)的相關(guān)政策給予更多的關(guān)注,我們一方面會(huì)在這些政策制定的過程中貢獻(xiàn)自己的經(jīng)驗(yàn)和建議,同時(shí)也會(huì)積極響應(yīng)和配合國(guó)家一些相關(guān)政策進(jìn)行落地執(zhí)行。目前來看政策的制定只是讓大數(shù)據(jù)發(fā)展的步伐走得更穩(wěn)健更安全,短期來看也許會(huì)讓我們?cè)趹?yīng)用大數(shù)據(jù)的產(chǎn)品模式上放慢一些探索的步伐,長(zhǎng)期來說相信不會(huì)對(duì)大數(shù)據(jù)的發(fā)展帶來太大的挑戰(zhàn)。
來源:產(chǎn)品中國(guó) @劉亞瓊
騰訊大數(shù)據(jù)平臺(tái)沒有明確的產(chǎn)品定位,都不知道方向,華為大數(shù)據(jù)產(chǎn)品定位就很清晰。