阿里云這群瘋子

32 評論 44014 瀏覽 245 收藏 49 分鐘

代碼成就萬世基積沙鎮海夢想永在凌云意意氣風發;任何執拗都會成為過往,只有時間會告訴你對錯。

電影里才有瘋子。麥克墨菲在瘋人院里帶領一群精神病人揭竿而起,懟天懟地;餓了三天的黑皮為了搶一口面包被店主追上高架橋,末路狂奔;杰克和泰勒在午夜的搏擊俱樂部里揮拳相向,鮮血淋漓。屏幕對面,我們把爆米花塞進嘴里,哭成狗或者笑成狗。電影散場,各自回家。

真正的瘋子,從來不看電影。

他們把別人的目光變成聚光燈,把自己的生活變成真人秀,手提鋼刀用肉身串演一個濃重的角色。他們的人生結局無外乎兩種:黃袍加身,或者玉石俱焚。

阿里云這群瘋子,就用56度的荷爾蒙,在橫跨十年的悠長畫布上涂抹了這樣一個故事。

一、一個大問題

2008年9月,王堅加入阿里巴巴。馬云把他從微軟亞洲研究院常務副院長的位置挖來,是因為阿里巴巴面臨一個重大的危機——公司的“腦力”快不夠用了。

阿里巴巴的“腦力”,其實就是“計算力”。幾億用戶無論是在淘寶剁手,還是支付寶上轉賬,這一切都要靠巨大的計算力來思考、記憶。

恰恰和人一樣:

  • 如果這個“大腦”記憶被填滿,就沒辦法儲存新的商品和交易記錄。
  • 如果這個“大腦”思維速度跟不上,就沒有辦法讓用戶及時下單、付款。

2008年,中國雖然已經加入 WTO,還把國際友人請來熱熱鬧鬧地開了一次奧運會,但在科技領域仍然是個標準的“三無”國家:沒有自己的操作系統,沒有自己的芯片,同樣沒有自己的計算力系統。所以,購買國外成熟的設備和系統,幾乎是 BAT 和所有大國企的唯一選擇。

國外的東西,無外乎“IOE”這三樣標配:

  1. I(IBM,服務器提供商,他們提供的服務器俗稱“小型機”)
  2. O(Oracle,數據庫提供商,他們的軟件是著名的“甲骨文商業數據庫”)
  3. E(EMC,存儲設備提供商,他們提供的是“集中式存儲”)。

鮮有人知,那時的阿里像依賴氧氣一樣依賴 IOE。

一個支付寶的同事給了我翻出了當年的數據:2008年,在阿里的IT架構中,淘寶和支付寶使用的絕大部分都是 IBM 小型機、Oracle 商業數據庫以及 EMC 集中式存儲。

當年用戶激增,數據越來越多,每天早上八點到九點半之間,服務器的處理器使用率都會飆升到 98%,離爆棚就差兩個百分點。阿里巴巴就像賽道上的跑車,速度飛快,但引擎已經發紅,再踩幾腳油估計就要冒煙,后果不堪設想。

可能連馬云自己都沒有想到,阻礙阿里巴巴增長最迫切的阻力不是商場上的博弈、不是政策的變化,而居然是 IT 基礎設施的瓶頸。

怎么辦?

花錢繼續買服務器和軟件??!

這話聽上去沒錯,但是有兩個小問題:

一個問題是太貴。

那時候小型機價格大概是從幾十萬到百萬人民幣,商業數據庫軟件費用差不多幾千萬,外加一大筆維護費。王堅 08 年剛來阿里時就給馬云算了算,按照這樣的速度“剁手”,光是買機器和軟件就足夠讓阿里破產,阿里得找到一種成本更低的技術架構。

另一個問題是不好用。

阿里在08-09年的時候,業務增長速度實在太快。每年都是十幾二十倍,IOE 雖然都是美國公司,但事實證明美國的月亮也不會更圓。它們的系統并沒有經受過服務幾億人這么大規模的考驗,此時已經變得非常難用了。

2008 年中旬,馬云召開了內部會議。事情已經刻不容緩,要研發一套新的技術架構來換掉阿里巴巴的舊引擎。

這個新的計算架構應該是什么樣呢?

  1. 它要便宜:就像一日和三餐一樣,無論去哪家餐廳,都不如自己做飯更實惠。長遠來看,自己開發一套計算架構顯然是最經濟的。
  2. 它要好用:為了滿足阿里巴巴龐大的計算任務,這套系統至少要比 IOE 表現更好,能同時調度數千臺計算機,組成一個巨大無比的“大腦”。

于是,“阿里云”這個詞,第一次出現在公司高層的話語里。而王堅,加盟阿里巴巴之后的職務恰恰是“首席架構師”,他的使命就是從零開始建立這個云計算系統。

王堅是個理想主義者。在他豐滿的理想中,這個新架構的每一行代碼都要自己來寫。但現實骨感:環顧四周,他身邊除了幾位從微軟帶來的舊部,幾乎一無所有。

2008年10月,這個想象中屬于中國的云計算系統被團隊定名為“飛天”,源自中國神話中的形象。

后來人們說,阿里云是技術驅動型的企業。不過在我看來,最初阿里云應該是起名驅動型的企業。名字倒是起得不錯,但作為“三無”國家,底層科技起步較晚的中國在對美國的復雜計算機系統的戰爭中,幾十年都未嘗勝績。

中國人研究的云計算,會“飛天”還是“墜毀”,旁人心里多多少少是有判斷的,只是不便明說。

說回這個瘋狂的計劃。

飛天相當于一個發動機的,而時間緊迫,阿里巴巴準備同時做兩件事:一邊制造發動機,一邊為自己的主力業務淘寶網順便造一個整車出來。

當時,淘寶網在計算力方面的主要需求就是“大規模數據計算”。所以,用飛天為淘寶造“大規模數據計算”制造整車的計劃就被定名為“云梯計劃”。

實際上,“云梯計劃”關乎阿里的生死,不是兒戲。思來想去,公司內部還是做了兩手準備:

  1. 用一些已有的開源軟件為基礎,研發一個數據計算系統,這是“云梯1”計劃。
  2. 而以“飛天”為基礎,純自研一套數據計算系統,被定為“云梯2”計劃。

彼時絕沒人想到,五年后的那個下午,這兩座通向頂峰的云梯會用怎樣的姿態占據畫面的中心。千軍萬馬雄列兩旁,目睹榮耀的火焰和退潮的海水。歷史就這樣以洶涌的姿態,向那些準備好的和沒準備好的人敞開。

2009年 阿里云成立

二、招兵買馬

滿弓是阿里云的第六位工程師。招他進來的,是王堅在微軟的舊部,阿里云的第一技術負責人林晨曦。面試結束時,林晨曦歪嘴一笑,提醒滿弓:“你加入阿里云之后,要做好隨時出差的準備?!?/p>

果然,滿弓簽完入職合同當天下午,就被“附贈”了一張火車票,他要去天津幫助招聘。

滿弓這樣回憶十年前的那個下午:

“阿里研發院” 2008年10月才成立,已經錯過了招聘季的黃金時期。但是我們又確實太需要人才了,于是刻不容緩,要再掃蕩一下那些大學,把“漏網之魚”打撈回來。

2009年 阿里云的招聘海報

跟著阿里云的招聘隊伍,滿弓跑遍了全國主要的幾大城市十幾個學校。每到一個學校,只呆三天。

第一天做宣講,然后馬上筆試;第二天統一面試;第三天發 Offer。

彼時的阿里巴巴已經很有名氣了,很多錯過招聘季的同學喜出望外,一時間各大學校風起云涌奔走相告齊來應聘,雖然從招聘者到應聘者,都沒見過云計算長什么樣子。

由于招聘人手實在太少,面對堆積如山的筆試試卷,滿弓他們根本判不過來。焦頭爛額的滿弓擦汗時一回頭,看到了同行的 HR 小姐姐。滿弓兩眼放光,二話不說把她們揪過來,一晚上就教會了她們如何判卷。

經過這樣“連滾帶爬”的招聘,到了2008年年底,阿里云湊夠了了三十位工程師。

話分兩頭。

下有林晨曦招兵買馬,上有王堅每天“畫餅”。

馬云深受王堅鼓舞,雖然不懂技術,但是他逐漸發現,云計算這件事情的價值比一開始想象中的要大得多。這是因為云計算系統會制造出一種具有極強彈性的計算力,這樣的計算力一方面可以為阿里巴巴添置家當,另一方面還可以“批發零售”給無數中小企業,為未來世界建設了一整套“基礎設施”。

這樣來看,就把“獨善其身的工具”變成了“兼濟天下的生意”,這不正是馬云創建阿里巴巴的基本信念嗎?

從這一刻開始,馬云就對阿里云寄予重望。只要有空,就到阿里云的團隊里和林晨曦、滿弓這些工程師們一起聊天討論。

馬云、王堅 和工程師們的合影

然而,事情發展到這里,就開始有些錯位了。

阿里的很多的業務部門希望的是穩定地在現有系統上加以改進,最好別冒太大風險。但飛天團隊卻黃巾高擎赤膊上陣左右開弓,想依靠一己之力,開發出一套改寫世界歷史,可以讓中國人揚眉吐氣的完美云計算系統。

剛才我說阿里云是“起名驅動型的公司”,你看看這幫瘋子給飛天內部模塊的命名,就知道他們心里在想什么了:

  • 分布式存儲的系統,就像大地一樣承載萬物,那就叫“盤古”。
  • 調度系統,需要“能掐會算”,就用懂得陰陽八卦的“伏羲”命名。
  • 結構化存儲系統,就用會蓋房子的“有巢”。
  • 網絡通信,就用追日的“夸父”。
  • 等等。

飛天團隊一片斗志昂揚,其他部門的很多領導層,用半信半疑外加慈愛的眼光看著他們。

三、淘寶的一場戰爭

時間不等人,轉眼到了2009年。

在隔壁淘寶網的普通員工中,有人在“隔江猶唱后庭花”,有人卻已經感到“山雨欲來風滿樓”。

2009年,小邪剛剛加入阿里一年,在淘寶網參與系統研發。當時他和同事都感覺到,淘寶網面臨的矛盾非常明顯:業務并不賺錢,09年只有一個季度勉強盈利。而賺來的這點錢,眼看都要填進去購買服務器和軟件產品,入不敷出。

小邪記得很清楚,他昨天剛聽說隔壁阿里云準備搞云計算,今天就迎來了一個“特殊的客人”。

林晨曦走到淘寶網技術團隊面前,搬個板凳兀自坐下:“你們淘寶的大數據系統用我們的阿里云架構吧?!?/p>

“代碼已經寫了多少?”小邪問。

“幾行吧。”林晨曦說。

事情就這樣定下來了。

云梯1、云梯2,兩套系統一邊搭建,一邊在淘寶內部實驗,一邊承擔部分計算任務以緩解現有系統不足的壓力。

當時淘寶技術保障數據庫管理員的負責人是后羿。他幾次欲言又止,還是硬著頭皮在內部會議上宣布了這個消息:淘寶要放棄 Oracle,轉投自研的數據庫架構了。

結果,八十多個 Oracle 工程師把他堵在會議室里,“你再說一句試試?”

他們的憤怒完全合情合理。“如果上邊鐵了心要干,兄弟們的前途在哪里?”

最終,一場惡斗轉化成了幾十個工程師坐在會議室促膝談心。技術人是講理的:淘寶已經這么大了,如果現在不刮骨療毒,自己砸自己的飯碗,將來整個淘寶都會命懸一線,到時候大家還不是淪落天涯。想通了這些,工程師們也冷靜多了。

這八十多個工程師里,包括后來的阿里技術保障部負責人振飛。振飛站出來說:“好,讓我們學新技術可以,但是咱們拿事實說話。你后羿敢不敢跟我打個賭?以三年為限,用新技術的淘寶核心交易系統必須達到零故障!”

后羿咬咬牙,敢!

但后羿一個人的分量還遠遠不夠重,畢竟淘寶上有這么多業務,這么多買家,這么多賣家,萬一數據遷移失敗,誰來負責?時任淘寶技術總架構師行癲(現任阿里巴巴 CTO)見狀,把心一橫,宣布自己和部門也愿意站出來,共同承擔技術風險:“干好了我們大家榮譽等身,干壞了要殺要剮我來扛!”

看到行癲都賭上了自己的身家性命,也就沒人再說什么了。

2009年秋天,轟轟烈烈的 IT 架構升級項目在淘寶網正式啟動。一群 Oracle 工程師,就這樣含著淚,一點一點親手拆毀自己安身立命的系統。

四、荒野求生

林晨曦用來“忽悠”淘寶網的“幾行代碼”,是在北京寫出來的。

2009年春節上班第一天,在北京上地的匯眾大廈203這間連暖氣都沒有的辦公室里,一幫工程師一邊口呼白氣,一邊敲出了“飛天”的第一行代碼。

飛天的第一行代碼

說起來,這個地方算是阿里云最早的辦公室,但是門口也沒個牌子。直到半年后他們搬出大廈,保安都不知道這幫神神叨叨的人究竟是干什么的。(不過十年后的今天,他們的手機里的很多 App 也許都跑在阿里云的服務上。)

每天,工程師們除了噼里啪啦寫代碼,還得順便“荒島求生”——自己訂水、買垃圾桶、修桌椅板凳、修無線網,連茶葉和咖啡都是從自己家帶來的。不過,他們堅信自己在做的事情還是挺偉大的。

“沒準將來我們成功了,我們寫的飛天第一行代碼還能印在T恤上呢!”角落里有人瑟瑟發抖地說。

那個時候的他們,看上去和一幫戴著眼鏡的教徒無異。

時間馬上又到了夏天,北京的夏天,你懂的。當時測試系統的服務器就架在辦公室里,這就是個巨大的火爐。大廈的空調不行,還沒到七月份,程序員就熱得撐不住了。為了降溫,每天上午他們都叫冰場送兩大塊冰來。

有一次周六,馬云來北京,專門到阿里云的辦公室去看看。林晨曦趕緊想打開電腦給馬老師展示一下自己團隊的成果,結果按了半天開關,機器都沒反應,他才發現大廈停電。馬云就這樣坐在辦公室等了半個小時,直到物業恢復供電才一睹阿里云飛天系統最初的芳容。

王堅跟馬云說,這幫人很能干,每天晚上都加班。馬云驚了,在這種地方還能加班??沒過幾天,阿里云就搬出了這幢大樓,進入了有空調的辦公室。

同事們往辦公室里運冰

五、神坑,阿里云

金融大咖胡曉明,2005 年加入阿里,以辦事雷厲風行聞名全集團。2009年6月,馬云找到胡曉明,準備交給他一個大任:內部創業,做阿里金融的總裁。

胡曉明信心滿懷,準備擼起袖子說干就干。不料,馬老師悠悠地說,不要急,你要先答應我兩件事。

馬云:第一件事,你只能做100萬人民幣以下的貸款生意,幫助像當年的我一樣借不到錢的創業者。

胡曉明:理解,這沒問題。

馬云:第二件事,你必須跟剛成立的阿里云綁在一起,用他們的技術架構支撐你的服務。

胡曉明:納尼????!

這兩件事,胡曉明最終都答應了。不過阿里云這幫看上去瘋瘋癲癲的人,他們技術到底靠不靠譜,胡曉明可是真沒底。
金融不像別的業務,這可是一個數據都不能錯,一個字節都不能丟。按照“行業祖訓”,打死都得用 IOE 這些國外大廠的基礎設施,現在可好,卻非得用聽上去就讓人懷疑的“阿里云”。

“明明可以坐高鐵,卻偏偏要騎自行車去上海?!?/p>

當時研發工程師王國濤的吐槽,代表了很多阿里金融同事們的心聲。但馬老師肯定有馬老師的道理。阿里金融的同事們只能硬著頭皮跟阿里云的朋友們握握手。

“牧羊犬”是阿里金融的第一個產品,簡單來說就是給淘寶商家貸款的項目。吐槽王王國濤回憶:“當時阿里云一邊搭建飛天平臺,我們就一邊在飛天上面開發牧羊犬應用。這就像是開發商一邊在造房子,我們一邊在室內裝修鋪地板。”

飛天果然不負眾望。

數據傳輸問題、計算穩定性問題、處理速度問題一樣都不少,翻版篆版梅花版的錯誤層出不窮,各種 Bug 形式翻新,永不重復,這叫一個皮。

阿里金融的工程師必須24小時盯著系統,才能防止釀成大錯。

當時情況危急到了什么程度呢?

一位奶爸工程師為了值夜班盯系統,把自己小孩的哭聲設成了鬧鈴。因為只有聽到這個聲音,他才能在無論多困的情況下從床上彈起來。

這段時間,提到阿里云,阿里金融的程序員們都是“眼睛干干的,有種想哭的心情”。他們的經典吐槽大概是這樣:人家的是云計算,我們家的是“人肉云計算”;人家的是“分布式計算”,我們家的是“分步試計算”。

作為合作伙伴,林晨曦每天的表情都有點兒尷尬,出則滿臉堆笑地幫阿里金融排除 Bug,入則愁容滿面地和同事們一起修改代碼。眼看就要過春節了,兩個項目都快撐不住了。

被“豬隊友”坑得夠嗆的胡曉明氣鼓鼓地帶著核心骨干跑到王堅辦公室門口“討說法”。胡曉明這個人,是出了名的“只要認定的事情就一定要辦成”,大有在王堅辦公室打地鋪靜坐的架勢。王堅無奈,派出所有的技術工程師,駐扎在阿里金融的現場加班開發,只為了“讓兄弟團隊能過個好年”。

好不容易捱過了 2009 年,春節過后,阿里云發布了一次大版本升級。升級完成的一瞬間,空氣突然安靜了:飛天系統穩定得不像阿里云的作品……

阿里金融從一口口嗆水的狀態,一下子沖出海面。

巨大的計算力讓阿里金融實現了“秒級”放貸,這種技術進步讓“小額多次放貸”成為了可能,這就讓阿里金融幾乎等于開掛,不良貸款率遠低于傳統金融機構。也正是因為阿里云“高效低價”的加持,單賬戶每年的 IT 成本可以控制在1元以內。

阿里金融,成為了后來的網商銀行,他們就這樣無意間成為了中國第一個上云的銀行。

六、“騙子”王堅

解決了穩定性,阿里云就像抓住了救命稻草,總算可以暫時喘口氣。

這些成績,也已經成功引起了其他公司的注意。于是 2010 年,在阿里巴巴出發兩年后,很多大公司紛紛著手研究自己的云計算技術。但所有人都沒想到,有一只巨大的怪獸正在必經之路上靜靜等待著。

這只怪獸名為“5K”。

你還記得“云梯1”和“云梯2”兩個項目嗎?此時,終于輪到他們唱主角了。

兩座云梯,就像“爭奪家產”的兩兄弟,規則很明確:

  1. 要想成功肩負起阿里巴巴的底層計算系統,就必須有能力獨自調度 5000 臺服務器。
  2. 兩兄弟誰先跑到 5000 這根線,就“贏者通吃”,繼承家業。

而 5000 這個目標,就寫為 5K。目標就擺在這,但無論是“云梯1”還是“云梯2”,都死活達不到這個指標。

李超是飛天伏羲調度系統的研發工程師。他用苦逼來形容自己的2010 到 2012。當時他帶著同事們沒日沒夜地加班,收獲的就是一個接一個的系統錯誤。就這樣,一年過去了,兩年過去了。

王堅是一個性情溫和的人,但是那段時間,他幾乎天天跟團隊拍桌子。

滿弓回憶,每次一開會大家都會把桌子收拾干凈,把水杯什么的拿走,以防出現“事故”。我記得有一次博士(王堅)很生氣,砰砰地拍手機。有一個工程師實在受不了了,說博士,你拍的是我的手機……

現實不是小說,神兵天降和劇情反轉并不存在。縱然他們幾乎嘗試了所有可能的技術策略,但就是沒有一種方案可以成功調度5000臺機器。

2012年底,以開源軟件為基礎的“云梯1”計劃實現了4000臺集群調度,而阿里云團隊更看好的純自研的“云梯2”還在1500臺集群的數量徘徊。

越是困難時刻,越會產生分歧。

實話實說,當時大多數的技術大牛,都覺得用經過全世界驗證的 Hadoop 為基礎的“云梯1”更有希望,對“云梯2”嗤之以鼻。而阿里云這幫人就是不認。因為根據他們的推斷,Hadoop 在4K到5K的路上,肯定會遇到一個不可逾越的溝壑,于是倔強地帶著團隊大舉投入“云梯2”。

在一片質疑和爭吵中,“最寒冷的冬天”就這樣降臨了。

1934年到1936年,從蘇區出發到陜北會師,三年長征,工農紅軍從8萬人銳減到3萬人。從2010年到2012年,在阿里云最艱苦的長征三年,“戰損率”只多不少。由于沒有成績沒有進展,連續幾年阿里云整個部門都在集團拿最低分。

滿弓、李超他們開始收到團隊同學的辭職書,林晨曦也收到了部下的轉崗信。這些郵件,最終都一封不少地塞在王堅的郵箱里。

一般來說,三年時間足夠判斷一件事情到底靠不靠譜?!笆澜缒┤铡蹦悄?,人們幾乎已經認定了阿里云不可能做出一套云計算系統了。不僅如此,很多阿里的同事都叫王堅“騙子”。開始大家還在背地里說,后來,大家都不再忌諱,公司里流傳著很多騙子王堅的笑話。

“一個學心理的博士居然當上阿里巴巴的 CTO,心理學學得真好?。 ?/p>

無論是“伏羲”還是“盤古”,這些開天辟地的名字,此時都成為了阿里云這些人要滿足“個人野心”的明證,成為了狂妄的代價,成為了“不自量力”的恥辱。

當時內網論壇里對阿里云和王堅的吐槽當時內網論壇里對阿里云和王堅的吐槽

滿弓、李超、飛天總架構師唐洪、林晨曦,他們每天都是低著頭上班。今天,左邊的工位空了,明天,右邊的工位空了。

“誰也不知道王堅當時幫我們抗了多大的壓力?!崩畛貞浧鹉嵌稳兆樱徽f了這么一句話。

眼看阿里云成立就要滿五年了,集團里卻風言風語地傳著“阿里云要被撤掉”的消息。

某一天,馬云突然召集阿里集團高管開會,所有業務部門的負責人都估計是馬云要宣布關掉阿里云的消息,于是紛紛帶上自己的技術負責人參會,準備一聲令下,就瓜分阿里云的技術人才。

在 2012 年的阿里云年會上,王堅走上臺,他緊緊攥著話筒,幾次抬眼望向遠處,幾次欲言又止,最終泣不成聲。這個曾經揚言要用一己之力把中國云計算鐫刻在世界科技史上的“瘋子”,就那樣孤零零站在原地,面對臺下黑壓壓的一群錯愕的人。仿佛無數時間的列車在他眼前呼嘯飛逝,而他手里沒有握著任何一張車票。

這是阿里云故事里最為人所知的一個細節,但我猜很少有人記得,王堅一邊哭,一邊說了什么。

他說:“這兩年我挨的罵甚至比我一輩子挨的罵還多。但是,我不后悔,只是,我上臺之前看到幾位同事,他們以前在阿里云,現在不在阿里云了…”

就像王堅的一位老部下把辭職信交到他手里時,對他說的那樣:做云計算的感覺就像集體合圍抱一棵大樹,誰都知道最終大家的手會連在一起,但誰也不知道那一刻會發生在什么時候。真的真的對不起,我撐不住了。

如果把阿里云所有曾經的員工加起來,可能是現在的好幾倍,有太多太多的人都在那段暗淡的日子里離開了。這不怪他們,任何一個能認真判斷利弊的人,也許在那時候都應該離開阿里云。也許只有“瘋子”,才會選擇留下。

就在阿里云最危急的時候,好友朱瓏找到林晨曦,鼓勵他離職創業。但林晨曦給朋友撂下一句斬釘截鐵的話:“現在我絕對不能走,如果你想等我創業,先讓我把阿里云扶上正軌?!?/p>

阿里云苦苦撐著,人心飄搖,流言四起,流言終于傳到馬云耳朵里。

“我每年給阿里云投 10 個億,投個十年,做不出來再說?!?/p>

他對著阿里巴巴集團所有人,斬釘截鐵地說。

這一句話,讓所有的流言順次平息。在阿里云年會上,馬云做了這樣的獨白:

我知道,所有留下來的人其實是真正阿里云的精髓。有的時候不是你技術有多強,而是我們有多團結,互相多配合,多支持,多理解。

換任何一個公司,吃不消內網上那么多人罵的,我有一段時間也是特別替大家難過,就像我罵兒子可以,我打兒子可以,不允許別人罵我兒子的,要不然我要翻臉的。

我沒有想過公司內部對阿里云有那么大的意見,我真沒想到。但是你們都扛過來了,這是我深以為傲的,如果你們能抗得過內部人罵,抗得過那么多人指責,我們還有什么扛不過未來五年的發展?

李超給我看了這張照片。

這是當年參加 5K 項目的同事,他說,這些人中現在只有十幾個還在阿里巴巴。

李超又給我看了另一張照片。

阿里云成立滿六年的時候,為所有從第一年走到現在的員工做了一個人偶。所謂的“所有”,只是眼前這五個人偶。滿弓和李超就在其中,他們相顧一笑。

這場長征,從摩肩接踵走到踽踽獨行。年輕的人們為了共同的夢想相互溫暖,又難免為了各自的夢想互道珍重。只是那些曾經鮮活的伙伴,就這樣成為離去的背影,越走越遠,消失在視野里,也消失在生命里。

再多情的看客,恐怕也難解其中滋味。

七、5K

阿里云的神坑,不僅“坑”了胡曉明的阿里金融,也在“坑”淘寶網。

之前說過,淘寶網從2009年就開始了“云梯計劃”。到了 2012 年,局面變得有些尷尬:

  1. 無論是云梯1和云梯2,都沒有沖上云計算的技術標準:5K 的規模。
  2. 雖然沒達標,但是淘寶網沒有選擇,只能“趕鴨子上架”,讓兩架還在試驗中的云梯承擔一些重要負載。

被刀架在脖子上的行癲心急如焚。

2013年3月28日,一封來自集團技術保障部架構師云錚的郵件直達高層:按照數據增量與未來業務增長的情況,云梯1和云梯2兩套系統的存儲和計算能力將在今年6月21日到達瓶頸。到那時,數據業務將會停滯,淘數據,量子能業務都會受到影響;阿里金融的貸款業務將因為無法進行信用數據運算而中止。

這一天終于來了,人們洪水般的“買買買”為阿里巴巴劃定了 Deadline。要想維持正常的業務,他們必須在不到三個月的時間里解決問題。這個時候,把飛天推上 5K,幾乎已經是唯一的選擇了。事到如今,這已經不是阿里云自己的戰斗,而是整個阿里巴巴集團的“背水一戰”了。

在這個關頭,阿里云需要集團所有人的幫助。各個部門的技術大牛迅速組成增援大軍列立山頭,旌旗飄揚。但是在進入戰斗序列之前,一個糾纏了各路大神五年恩怨情仇的問題必須有個了斷。

最初,因為要做兩手準備,以 Hadoop 為基礎的“云梯1”和以飛天為基礎的“云梯2”一直并行。這個時候,時局已經緊迫到不允許團隊分流,他們必須拋棄掉一個云梯。

拋棄哪個?

  • 云梯1,依靠開源技術,更加成熟,但幾年的實踐證明,把它推到 5K 有明顯的的技術瓶頸。而且,最核心的技術轉向開源系統,也許會讓阿里巴巴在未來遇到更多技術制約;
  • 云梯2,自研技術,難度更大,但它的架構和代碼都是基于阿里自身訴求而設計的。自主可控的 5K 一旦成功,就會打下阿里巴巴下一個十年的江山。而一旦失敗,后果也將不堪設想

此時做出任何抉擇,都會徹底改變阿里巴巴的歷史。但歷史又只在彼時彼刻給阿里巴巴一次機會,開弓沒有回頭箭,所有人的目光都看向王堅。

王堅說了兩個字:“飛天!”

再沒有一句質疑,再沒有一絲埋怨。那些曾經看好或者不看好飛天的技術大牛,這個時候擼起袖子一齊殺了進來。

核心技術系統的正明團隊,全員投入 5K 的攻堅戰;負責應用集測測試的許咼兢,在得知調度系統的日志自動收集和分析工具缺口嚴重,二話沒說主動請纓;褚霸、多隆、長仁這些分散在各部門的的技術牛人也都沖進來了。各路神仙在這幾個月親近得不分彼此。

褚霸回憶當時的場景:“早上9點進入項目,11點我們就開始解BUG。”

就連在電梯里,都會人問阿里云的同事“最近怎么樣?需不需要幫忙?”他們來自一些兄弟團隊,有負責安全的,有負責集成測試的。

阿里云自己的同事更是全力沖刺。

新員工剛剛入職,就立刻被派往“戰場”。本來是北京分公司的員工,入職之后直接拉到杭州幫忙 5K 項目。都加入公司兩個月了,還不知道自己北京的工位在哪里。而一位叫做李泉的同事,連續幾個禮拜連軸轉,半夜兩三點被叫起來解決問題,早晨八點又出現在工位上,被同事封為“李鐵人”。

在最后的測試階段,杭州和北京兩個辦公室的同事電話24小時通著,人可以輪班休息,電話不能掉線,那部用來接聽的電話都燒得滾燙。就這樣,一行行代碼累積起來,在賽博世界的疆土上一眼望不到邊界。他們交錯重疊,像從白堊紀開始慢慢累積的地層。直到這片大陸,終于浮出海面。

2013年6月底,5K進入了最后的穩定性測試。

怎么測試系統的問題定性呢?

之前帶領“八十勇士”圍攻后羿的振飛,提出了一個真·鋼鐵直男的測試辦法:拔電源。

他的理由是:“如果這種突然暴力斷電都能撐得住,阿里云還有什么不穩定的呢?”

拉電的同學反復問了三遍:拉嗎?拉嗎?拉嗎?最后才顫抖著雙手拉下了電源。

這一刻,時間停止了,只有機器重新啟動的聲音。四個小時以后,當系統完全恢復運行的時候,很多阿里云同事的背后,已經被冷汗打濕了。經過系統自檢,一切正常。雖然還有十臺服務器光榮就義,但是,數據毫發無損!

這一刻,在場見證的人都明白:成了。

所有的技術路線之爭,所有的進退成敗之辯,所有的隱忍委屈不甘,所有的懷疑嘲諷憂慮,就在此時此刻突然畫上句號。

盛夏的杭州,阿里巴巴熱血翻涌,阿里云的“瘋子”們卻心如止水。

八、阿里云這群瘋子

阿里云,成為了中國第一家擁有完整云計算能力的企業。

2015年,在計算界的奧運會 Sort Benchmark 中,阿里云計算100TB數據排序只用了不到7分鐘,把 ApacheSpark 之前創造的23分鐘世界紀錄一下子縮短了一多半。這說明,中國人研發的云計算系統不僅成功了,而且不比世界上任何現存的云計算系統差。

成功登頂的“云梯2”,后來更名為 ODPS,“加冕”成為了阿里巴巴各項業務通用的大數據計算平臺。

ODPS 驗證成功之后,阿里立刻啟動“登月計劃”,把所有的數據和計算都遷移到飛天為基礎的系統上,全盤替代 IOE 和 云梯1。2013年5月,阿里巴巴最后一臺小型機下線。7月,淘寶最后一個Oracle數據庫下線。阿里巴巴這臺戰車,用了五年時間,在超高速行駛中,沒有踩一腳剎車,成功更換了發動機。

因為突破了技術瓶頸,在 5K 之后,ODPS 只用了幾個月就沖上了單集群 10K,進而實現了無限制擴展。到 2018年,已經更名為 MaxCompute 的 ODPS 達到了數萬臺的規模。

哦對了,還有一件小事。當年振飛和后羿的那場“世紀賭局”,后羿贏了。用了三年時間,新的淘寶核心系統果然實現了零故障。

這段時間,阿里云也迎來了兩個變動:

  • 2012年秋天,林晨赴約去創業。提及過往,他如此回憶:“阿里云的四年,像是過完了一輩子。以后的事情,都是下輩子的?!彼椭飙噭摿⒘艘缊D科技,如今是人工智能領域最炙手可熱的公司之一。
  • 2014年秋天,胡曉明來了。這個當年去王堅辦公室“上訪”的熱血青年,陪著阿里云走過了最漫長艱難的歲月。也正因如此,此時他比任何人都更堅信云計算的力量。

2015年7月22日,云棲大會北京峰會開幕,新的領導團隊第一次在公眾面前露面。胡曉明任阿里云總裁;李津扛起產品研發,在淘寶網鼎力幫助阿里云的小邪作為技術顧問,等等等等。

名單里沒有王堅,王堅知道,當有人能比他更好地帶領阿里云前進的一刻,就是他放手的時候了。這個老男孩,此時靜靜坐在時光的河岸邊,癡癡傻笑。夢回少年,肝膽皆冰雪。

九、另一個奇跡

在阿里巴巴的云棲小鎮,一尊雕像被豎立起來,雕像上只有兩個字:“5K”。

5K雕塑,上面刻著飛天團隊所有工程師的名字,無論 Ta 是不是仍然在團隊。

之前有人無心說的那句“沒準將來我們成功了,我們寫的飛天第一行代碼還能印在T恤上呢!”也成為了現實。

2018年現任阿里云產品總監何云飛 身上就穿著“第一行代碼T恤”;2013年,中國企業IT架構升級最好的解決方式,再也不是買來一臺新的機器替代掉原有機器,而是采用云計算。

從這一刻開始,這些瘋狂的技術宅才有了服務全世界企業的信心;也正是從這一刻開始,坐鎮第一把交椅的傳奇總裁胡曉明,帶領阿里云進入了“攻城掠地”的時代。

中國的網站登錄阿里云的比例,從20%,上漲到30%,上漲到40%,上漲到50%。全球19個地域,兩百多個飛天數據中心順次點亮。每個季度,阿里云都保持同比增長100%,這樣逆天的增長速度持續了12個季度。

2018年初的云棲大會上,在一幅碩大的市場曲線圖面前,胡曉明抬起右手,這一秒,時間像是凝固了一般。同一年,飛天云計算操作系統獲得了一個特別的獎項——中國電子學會15年以來的第一個特等獎。

在芯片領域,我們面對美國壟斷只得眼睜睜地沉默;在操作系統領域,我們面對美國的背影只能艱難追趕;但是在云計算這片土地上,從王堅帶著一群理想主義者橫空出世,到胡曉明把商業戰場拉至和亞馬遜的 AWS 同一級別。中國人用了十年時間造出的全球第三、亞洲第一的阿里云,不說和美國戰為和棋,至少在世界的版圖上奪下了堪稱廣袤的一片疆土。

如此,阿里云的瘋子們,理應贏得光芒和榮耀。

創業維艱,唯有曾和死神擦肩而過的人,余生才會用十倍的速度奔跑。

2018年,當年為阿里云對接淘寶立下汗馬功勞的小邪正式加入了阿里云,掌管“飛天八部”,阿里云所有的現役主力技術和前沿技術,都歸至他麾下。

小邪 蔣江偉

小邪手中的彈藥充足:

  • 2017年發布的神龍云服務器,是對下一代云計算主機的探索。
    同年發布的 POLARDB,劍指商業數據庫 Oracle 和它的繼任者 MySQL,也稱得上是阿里云未來之星。
  • 2018年初,飛天的分布式存儲系統“盤古”升級到了 2.0,成為阿里巴巴統一存儲平臺。
  • 2018年秋天的云棲大會上,唐洪、小邪、何導等阿里云大咖悉數登場,發布了飛天2.0。敢稱 2.0,是因為他們把野心放到了“萬物互聯”的下一個20年。

如此嘗試和未來對話的技術還有很多。

此刻的阿里云,手握歷史上最好的一把牌。

十、尾聲

不久前,王堅受央視《朗讀者》節目邀請,回憶了阿里云的創業史,他平靜地說:“阿里云是拿命換來的”。

能用命換來夢想,未嘗不是幸事。

君不見,在無數個平行世界中,瘋人院里的麥克墨菲最終都越獄失敗,被醫生切去前額葉,再無還手之力。

一群理想主義者的長征路上,一片落葉微微改變飛舞的方向,都有可能把他們引向另一個方向,另一種結局。如果重來一次,阿里云也許無法復現今天的疆域和榮耀。但歷史沒有假設,可嘆阿里云這群人從第一天就無來由地相信,中國人有權擁有自己的云計算。

以身為棋,勝天半子。

阿里云的創業故事走到了封底,書中悲歡離合,凡此種種,也許只博看客一嘆。只有那些經歷過這一切的活生生的人,才能在時間的風塵里,循著自己的腳印依稀辨別來路。

而那些走散的人呢?

他們也許會在某個秋日回憶起和伙伴同行的日子,心懷感念;他們也許有了新的忙碌的生活,來不及回望;他們也許偶然翻到新聞,看到那年王堅的滾滾熱淚;他們也許在飯桌上談笑風生,聊到當時的兄弟,忽然抬眼望向遠方,干掉一杯烈酒。

我想起一個小故事。

在最初面試時,有一個大牛程序員和滿弓聊過之后,本想再考慮考慮是否入職。但是出門時,他看到了阿里云辦公室上的一副對聯,原地思考了幾秒鐘,轉身決定馬上加入。

那副對聯是這樣寫的:

代碼成就萬世基積沙鎮海夢想永在凌云意意氣風發;

任何執拗都會成為過往,只有時間會告訴你對錯。

人們總愛說一句話:認真你就輸了。

而我更相信另一句話:認輸,你才真的輸了。

 

作者:史中,公眾號:淺黑科技(ID:qianheikeji)

來源:淺黑科技

本文由 @ 淺黑科技 授權發布于人人都是產品經理,未經作者許可,禁止轉載

題圖來自Unsplash,基于CC0協議

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 飛天

    來自浙江 回復
  2. 看得我起了好幾次雞皮疙瘩,還有好幾陣的抖擻;真的是沒有人能隨隨便便成功,捫心自問我沒有他們那樣的能力、那樣的熱血、那樣的激情、那樣的拼命、那樣的相信、那樣的熱愛!但我至少佩服、向往,自己能有一天做到10%,20%,30%….

    來自福建 回復
  3. 看的熱淚盈眶的,寧愿瘋狂不愿平凡

    來自北京 回復
  4. 于無聲處聽驚雷

    回復
  5. 真正震撼人心的文字,是有溫度的,是有力量的,于無聲處聽驚雷

    來自廣東 回復
  6. 這篇文章有種讓人在看小說的感覺,但偏偏它是真實的。寫的真的太好了。

    來自浙江 回復
  7. 寫得太好了,甚至很感人。不亞于電影中的劇情。此刻終于明白電影中的橋段為什么會演譯的如此夸大,因為事實有過之而無不及
    阿里云開創性的建樹,的確能對得起飛天、盤古之譽名。
    為所有奮斗在一線的科技工作者感到驕傲,為國人有如此強大的不屈不撓的精神自豪!

    來自福建 回復
  8. 寫得不錯的一篇文章,了解了阿里云的歷史,希望自己以后也能加入這樣燃情的工作當中!

    來自廣東 回復
  9. 我都看完了,作者寫的真的很有代入感,感恩,沒有誰的成功是隨隨便便的,讓我們看到了阿里的偉大之處!感恩過程中奉獻的人,無論他們最終還在不在阿里云,他們都是英雄!

    來自浙江 回復
  10. 大贊,有些不知道該如何平復自己的心情了

    來自廣東 回復
  11. 如果2013年6月5K測試失敗了,故事該怎么寫?

    來自廣東 回復
  12. 作為一名阿里人,尤為驕傲

    回復
  13. 先在輕芒看的,又在這里看了一遍

    回復
  14. 我落淚了,寫的真好,真有人情味,作者很好,喜歡看這樣的作者的文章,肅然起敬

    回復
  15. 文章是否可授權轉載?

    回復
  16. 寫的太好了,感同身受!幾次都感動流淚,這種文字的力量,真的好強大!

    回復
  17. 江湖中,就缺您這般能歌善舞靈牙利齒智勇雙全才學八斗的人才

    回復
  18. 值得多看幾遍

    回復
  19. 很感人,文筆很好??

    回復
  20. 昨天看完,就看得心潮澎湃,眼眶濕潤;自己也要把生活和工作做的一往無前,破釜沉舟!

    回復
  21. 那些一條路走到黑,不論周遭人如何嗤之以鼻,都能堅定自己信念的人,值得敬佩!
    干大事者,有遠見,有勇氣,有執著的信念,值得云云眾生深思、自省

    來自湖南 回復
  22. 能夠加入飛天這樣的團隊這輩子估計都值了,滿滿正能量,滿滿江湖氣,滿滿的為青春為未來奮斗的價值感~

    來自廣東 回復
  23. 每次看關于阿里的“奮斗史”,總是有種熱血沸騰的感覺,或許這就是一家企業能夠活過102年,橫跨3個世紀,內在的企業文化和動力吧~加油阿里~加油中國!

    來自福建 回復
  24. 敬佩王堅,馬云這樣的人!

    來自湖北 回復
  25. ??

    來自浙江 回復
  26. 這才是夢想的力量,在個人身上最直接的提現,我流淚了

    來自廣東 回復
  27. 滿滿江湖氣息,寫出了成功背后的心酸與拼搏

    回復
  28. 寫得真好

    回復
  29. 很生動,能把人帶進去

    來自北京 回復
  30. 寫得真好

    來自廣東 回復