阿里的野心:大數據搬家記

0 評論 3870 瀏覽 2 收藏 32 分鐘

這可以看做是阿里實施大數據戰略的記事文~希望對關注大數據的朋友有所啟發。

作為中國最大的電商集團,阿里巴巴一直善于自省自查。大數據革命的旋風吹到中國,讓阿里巴巴得以機會發現自己腳下土地的松動。按照“數據基礎決定上層建筑”的邏輯,阿里巴巴祭出一系列數據遷移和優化項目——重塑阿里電商生態系統的生命之樹正破土生發。然而,“釜底抽薪”般的大動作可是需要拿出十萬分的謹慎和耐心……

高空任務

自曝其短、奮起補課的事兒還是靜悄悄地進行。

當攝像師不斷變換機位尋找最佳視角拍攝時,潘寶坤有點憤怒了?!澳銈兂鋈?別拍了!等我們做好再回來!”他吼道。

這一幕發生在1月13日晚,在阿里巴巴杭州西溪園區,一個被稱為“DNA項目”的秘密計劃正進入最關鍵的時刻。為了記錄關鍵的場景,阿里專門安排了攝像師跟拍了整個項目的關鍵環節。偏偏在這個時候,技術后臺的代碼出了點狀況,人人都急出一身冷汗。潘寶坤是當晚技術團隊的一員。

DNA項目的核心是阿里C2C和B2C兩大電商交易平臺淘寶、天貓對商品SKU(商品統一編號)的底層技術架構更新。它在天貓對商品類目信息重新梳理的“達爾文計劃”的基礎上延展而來。如果說達爾文計劃是一顆蘋果,DNA項目則是一棵蘋果樹,是阿里電商生態系統的生命之樹。阿里集團IPO代號不是叫“阿凡達”(Avatar)嗎?如果不做達爾文計劃和DNA項目,它是不可能成為智慧星球的,馬云的外號“外星人”也將名不符實。

大數據(Big Data)革命在美國有幾種典型表現:亞馬遜有個性化搜索A9,A即算法(Algorithms)的縮寫。Netflix有76897種電影分類,內部叫“量子論”、“微標簽”。Facebook有新聞收集系統。潘多拉電臺有音樂基因工程。算法是一種神奇的掌握人類消費行為和內心活動的系統,如何將人工分類與機器智能推薦相結合,一直是互聯網頂級之戰。

簡單理解,每個超市都有很多貨架,商品分門別類擺放,如果標簽混亂、指向不清,會影響銷售效率和購物體驗。而作為中國最大的網上商店,淘寶從2004年5月誕生起,平臺上的每一款商品都有一個特定數字代碼,2008年在淘寶內部培育的天貓延續了這種技術架構,十年積累,阿里電商體系里的商品已經超過了20億。與此同時,商品信息的混亂、冗余、不規范越來越明顯。

一個典型的例子:在蘋果公司尚未推出iPhone 5c之前,淘寶上居然有人賣綠色版iPhone,“這讓人哭笑不得,傷害了淘寶系多年建立起來的信任度?!卑⒗锇桶凸蚕硎聵I群副總裁王曦若對記者說。

與美國的eBay、亞馬遜相比,淘寶的商品類目基礎架構和分類管理不是一開始就標準化的,部分SKU的屬性值(如規格、型號、顏色、尺碼等)可以由賣家自定義編輯,難免會亂七八糟、混淆用戶、甚至發生SKU作弊行為(比如將常規商品和配件輔料、瑕疵品等放在一個寶貝鏈接里出售)。

對于淘寶、天貓來說,商品信息數據系統就像基因之于細胞那么重要,它決定著所有線上交易的進化程度:如果類目規范整齊,交易就簡單快捷高效,進而推動自我革新;如果系統雜亂無章,玩不了算法和個性化,影響用戶體驗,甚至給阿里自身拖后腿。今年3月,馬云內部郵件稱:云和端(Cloud +App)將是未來移動互聯網的關鍵,阿里十年的目標是建立DT(Data Technology),數據時代中國商業發展的基礎設施。

王曦若將阿里從達爾文計劃到DNA項目的最后一步操作稱為“在飛行著的飛機上換引擎”,來形容重整商品類目的風險之高和壓力之大。她是DNA項目的總負責人,帶領一個近百人的團隊。

整個項目的關鍵是底層后臺的數據遷移,他們需要將阿里商品信息開發團隊做好的全新模型,鏈接到無時無刻不在使用的淘寶、天貓平臺上。而所有這一切,得穩定平滑過渡,不能驚擾賣家和用戶。

商品信息“進化”

瘦死的駱駝比馬大。阿里后臺“病了”,商品類目信息出現了“病菌”,但它仍然是中國最大的電商平臺,以沃爾瑪+亞馬遜的模式,以電商、金融和數據平臺在中國經濟扮演著重要的角色。

阿里用來整理和存儲商品信息的系統是一個樹狀結構,在內部叫“類目”。作為第三方交易平臺,阿里把商品分成70多個大類,在每一個大類下分出很多子類目,子類目下又有一層層的分類。就像一顆枝繁葉茂的大樹,在樹干分出很多枝椏后,葉子已經難以計數。

沒人否認這套系統的重要性,但即便在阿里內部,對它有了解的人也不多,因為它在技術底層,不直接影響前端交易,不像阿里每年雙11的創紀錄銷售額那樣吸引普通人的目光。

每年雙11交易額都刷新紀錄的天貓,是阿里集團最先推行“達爾文進化論”的部門。2012年5月,天貓更名剛剛4個多月,就被發現有了“病癥”。技術人員通過后臺看到,越來越多的買家留言說很難在天貓上找到自己最初想要的商品,無論通過類目(比如服飾、電器、化妝品)還是搜索——這是天貓商品的兩大流量入口。要么指向不精準,要么信息過于龐雜,你需要手動翻閱好幾頁信息頁面。

對于剛剛打響名號的天貓來說,這并不是件可以忽略不計的小事。馬云對天貓的期許是,專注做B2C業務的天貓就像挺進大別山的劉鄧大軍,是整個阿里集團在B2C領域的正面作戰部隊?!癇2C是比C2C更高級的一種零售業態?!痹詫毶坛强偨浝?、獨立電商分析師黃若告訴記者,B2C平臺應該是一個Shopping Mall,商品豐富而正規,信息透明而規范。

電商發展早期,商品與信息組合的重要性被忽視。億歐網聯合創始人、電商分析師黃淵普對記者說,隨著商品數量增加,其組合方式是電商精細化運營最重要的體現之一。同樣的商品有多種信息描述,既浪費各方資源,很多時候也助長了商品的不實宣傳。電商平臺方有必要把類目規范化,這是電商購物回歸產品本身,促進公平競爭的必然措施。

王曦若著手讓團隊一點點去核查,試圖厘清到底是哪個環節出了問題,最終商品信息的不確定性被定性為核心問題。他們發現,即便是在天貓上,同一款商品的信息也未必相同,比如一款綠色的保溫杯,有的賣家描述為“淡綠色塑料保溫杯”,有的則是“淺綠色塑膠保溫杯”。

“某種程度上,天貓已經不像個Shopping Mall了?!蓖蹶厝粽f。天貓的商品信息延續了淘寶的風格,由賣家填寫,天貓只負責簡單審核(商品基本屬性準確以及符合法律法規),這就造成了商品描述五花八門,在后臺的“倉庫”不便管理,前端“柜臺”信息混亂,買家找不到想要的商品,賣家銷售庫存管理日益繁雜。

王曦若把問題報告給時任天貓總裁張勇。張勇在高層會上說,一定要把問題盡快解決掉。他們花了幾個月調研討論,張勇拍板決定啟動信息重整項目,但當時還沒起名字?!耙痪徒羞_爾文計劃,代表著我們商品信息的一種進化?”王曦若的提議得到贊同。

阿里共享事業部派出了兩個團隊負責達爾文計劃的運作。天貓產品部的何家瓊被抽離出來,組織了一個10人團隊,叫“達爾文基礎運營團隊”。2012年8月,他們從手機和化妝品兩種相對簡單的商品開始,正式啟動達爾文計劃。

從天貓開始

習慣一旦養成很難改變,更何況你動的是利益。阿里先在天貓而不是在淘寶做商品類目重整,就考慮到它平臺上大多是知名品牌入駐,調整和規范的成本相對低,不至于擾亂淘寶的賣家信息海洋。

2012年8月,在天貓的后臺系統,手機和化妝品賣家都看到了一則關于達爾文計劃的公告,詳情及需要賣家怎樣配合。如同總裁張勇謹慎的行事風格,天貓該項目運作也小心翼翼。運營團隊先進行調研,一是對淘寶天貓賣家和買家數據收集,內部也與阿里負責類目的管理者(俗稱“小二”)溝通,二是向國外同行亞馬遜和eBay學習,三是對淘寶十年來經驗總結。

聞思圖書專營店店主溫興歌曾經為這樣的問題糾結:某一本書的內容既涉及商業故事,也屬于旅行見聞,到底放在商業子類目下好賣,還是放在旅游子類目下更好賣?達爾文團隊圍繞一個基礎的問題開展:某個商品的類目理想中應該是什么樣子的。他們討論這些差別,一步步涉及到最基礎最瑣碎的問題:為什么商家會放錯類目?商家什么情況下會設置錯的關鍵字?每個商品的顏色、尺碼、款式都用一串獨立的數字來表示,為什么還信息混亂?……

天貓的運營團隊給平臺上手機和化妝品類目的前10名賣家打電話,介紹正在進行中的達爾文計劃,征得對方同意后,拋出一系列問題:商品的材質是什么?一共有幾個型號?多少種顏色?一般每個月生產多少銷售多少?放在天貓倉庫又有多少?……“這些看似不太相關的問題,命中的才是商品最核心的信息?!焙渭噎傉f,商品信息最終是為交易服務。

第一輪商家調研完成后,天貓團隊坐在一起總結,得出一個令他們震撼的結論:天貓的類目結構已經遠遠不能滿足行業的發展狀況了,很多商品早就更新換代,或者豐富了款式型號,類目卻還是2008年最初建成的樣子。

他們一鼓作氣開了賣家溝通會。2013年初,溫興歌從浙江金華趕到杭州,在位于西湖國際大廈的天貓辦公室參加了圖書類目的賣家溝通會。會場有20多個圖書經銷同行,一個天貓圖書小二,一個達爾文基礎運營團隊成員,一個記錄員?!坝懻摰脑掝}是以后我們怎么填寫圖書信息?!睖嘏d歌說。以前都是賣家自由填寫,天貓簡單審核即可?,F在天貓提出他們會為每一類商品設置多種屬性,讓賣家進行選擇而不是自由填寫,比如給名人傳記設置框架,中國的還是外國的,男人還是女人,政治的還是商業等,賣家在選項里勾一下就行。

因為這涉及到未來自家店鋪的生意,賣家們都暢所欲言,提出種種可能的困難或建議方案。他們也反駁天貓的某些做法?!疤籽b書”就曾陷入討論僵局。天貓認為有統一條形碼、版權頁上印著叢書名的系列書才算套裝書,賣家們則堅持可以自由搭配,把兩三本好看的書組合在一起就行,無需考慮是否同一出版社、條形碼或系列叢書。溫興歌把不同出版社出的《育兒圣經》和《睡前胎教故事》組成套裝賣后,兩本書銷量都比以往增加近30%。

溝通會效果明顯。天貓圖書的子類目調整成既有天貓定義的套裝書,也有賣家自由搭配的“自由組套”。畢竟天貓是個交易平臺,達爾文計劃在規范商品信息的同時是為了提升交易效率和品質。這種既要規范有序、又不影響交易銷量的做法,在其他類目后來的操作中也不時出現。

王強在天貓經營一家海爾授權網絡店,是最早參加達爾文計劃試點的商家之一。比起以前上架新商品需要自己費盡心思去填寫商品描述信息,現在從天貓的庫中直接調用,“我只要填價格、庫存數量等信息就可以了,對天貓店的維護更簡易了?!?/p>

但由于品牌賣家的定位營銷策略不同,他們對達爾文計劃反應也不一致。何家瓊就遇到一個問題,耐克和阿迪達斯對天貓商品描述的要求有不同意見:在耐克的商品描述中,一個商品下面既有尺碼選項也有顏色選項,而阿迪達斯的只有尺碼選項,如果要標識顏色,代表商品屬性的是另外一串數字。

“這背后有銷量的博弈?!焙渭噎傉f,在淘寶天貓的搜索因素中,銷量占很大權重,核心表現就是按照商品的銷量自動排序。以慢跑鞋為例,耐克慢跑鞋的銷量是其各種顏色之和,阿迪達斯慢跑鞋則是按紅色、藍色、紫色等不同銷量各自呈現。在阿里平臺有個現象:用戶搜索“慢跑鞋”時,耐克因其銷量高出現在較為靠前的頁面,阿迪達斯則會靠后。

兩個品牌都是天貓的重要賣家,何家瓊不敢掉以輕心,親自給對方負責人及前5名的專營店賣家打電話溝通。耐克希望達爾文計劃繼續保持原來的商品描述方式,阿迪達斯則分成兩派,官方旗艦店希望商品描述和阿迪達斯官網保持一致,不同顏色的商品有不同的屬性值;專營店賣家考慮銷量,希望取消顏色屬性值,讓買家在統一款號的商品下自行選擇顏色。

目前,達爾文團隊還沒想到合適的方案來解決這個問題。何家瓊的設想是,對于服裝服飾等非標準化商品(非標品),也許可以放開一些彈性空間,天貓負責較大比例的類目管理,賣家根據自身情況進行個性化類目描述。耐克和阿迪達斯兩家天貓旗艦店負責人拒絕就此發表意見。

改變搜索邏輯

2013年,天貓陸續完成了對數碼、家電、手表等標品,服裝、化妝品、農產品等非標品的類目重新調整。

普通用戶感受到的是在天貓購物更快速準確了。王曦若說,“如果用戶的搜索信息足夠明確,我們甚至能提供唯一符合要求的商品。比如輸入iPhone 5s,搜索頁面中心只會出現一款手機,不再有手機殼、配件等無關信息,為用戶們節省大量時間?!?/p>

如此精準的推送來自天貓搜索系統的一套數據算法。當用戶輸入iPhone 5s時,搜索后臺會找到天貓賣家所有的iPhone 5s手機,根據銷量、人氣、價格、顧客評價等算出綜合得分最好的一個,系統再次評估后推送給用戶。這是一套相對公平的算法,面向所有賣家和用戶。

在類目之外,搜索是天貓最大的流量入口。過去5年,天貓搜索依賴的是模糊詞匯,“你輸入一個關鍵詞,后臺系統會幫忙匹配很多商品,只要這些商品的標簽中含有這個關鍵詞?!碧熵埉a品運營部產品總監胡秋根對記者說。他是天貓搜索業務的負責人,在達爾文計劃運作過程中,搜索也配合商品信息的改變有了突破。

模糊詞匯匹配的好處不言而喻:盡可能“一網打盡”把相關的商品展示給用戶?!坝嗪紖^的馬小姐想找一件真絲無袖連衣裙,理論上她只要輸入這7個字,不管翻多少頁,她都能從中找到自己想找的那一件。”胡秋根說。

這其實是歷史遺留問題,跟天貓前期商品信息的模糊混亂息息相關。達爾文計劃使天貓補上了商品類目規范和升級的課,阿里愈加在大數據應用上領先京東、當當、蘇寧等競爭對手(這三家拒絕接受采訪)。如今在天貓,你搜索一件商品,其展示結果從原來的成百上千件,變為聚合成確定的一件或幾件。

“搜索邏輯的變化對賣家影響很大,讓很多賣家改變了運營邏輯?!币郧昂芏噘u家為了銷量,會為商品添加很多標簽,現在天貓更青睞推送信息精準的優質商品,賣家們盡力運營好某一款或幾款主打商品?!氨睢痹谔熵垖⒊蔀檫^去時。天貓搜索不再推送多種同款商品給用戶,達不到賣家們跟風的效果。胡秋根說,“這也更加符合天貓的定位,這個平臺的核心競爭力是品牌,而不是只以銷量取勝。”

“釜底抽薪”

當達爾文計劃逐漸開花結果時,一項更有價值、同時也更有難度的項目也同時交錯在開展。它觸及的是整個阿里電商平臺的底層數據,是阿里發展大數據業務和未來DT目標的根基。

2013年2月,這個項目由阿里共享事業群的商品技術開發平臺團隊提出。該平臺負責人趙營苗告訴記者,從持續使用十年的經驗來看,淘寶平臺的“樹形結構”對于賣家和買家都簡單易用,但是隨著環境變化,越來越多的新商品出現,有的難以歸類,這棵“生命之樹”不再強壯如初,“也就是說,現有的結構類目已經跟不上行業的發展了,跟時代比起來落伍啦。”

阿里運營部門的梳理結果更夸張?!俺藝曳烧咭幎ú荒芙灰椎?,槍支彈藥毒品不能賣,在淘寶上,你注冊個賣家賬號,什么都可以賣?!盌NA項目運營負責人朱春勇說。趙營苗承認,“這就是我們的商品數據庫模型出了問題,改變迫在眉睫?!?/p>

在阿里大數據委員會會長車品覺看來,這不是阿里一家公司的問題,整個電商行業其實都存在商品信息管理的難題,在傳統零售行業,這也是至關重要的一環?!按髷祿弥凶钪匾娜齻€因素是數據的可實時性、數據的可解釋性和數據質量的準確穩定性。DNA項目涉及的是商品信息的準確穩定性,對于阿里大數據應用來說是基礎而且重要的步驟?!?/p>

2003年5月,淘寶創立10周年,每個部門都對業務做了大梳理。歷經兩三個月,商品開發團隊拿出了可行的整體項目方案。他們決定先從手機、3C產品、數碼配件、酒類、保健品5個類目開始,“相對其他要遷移的69類商品來說,這些類目商品數據相對標準和規范?!?/p>

但意義如此重大,項目開展時間卻遲遲未定。在阿里內部,價值觀和企業文化影響每個員工,“讓天下沒有難做的生意”是統一口號,但是每個業務線都有自己的業績任務,短期內并不一定合拍。從一開始,DNA項目被各個部門接受的程度也不一樣。

時任天貓總裁的張勇看完方案提了兩點意見:天貓將支持項目的進展,但此項目不能開展于2013年11月11日之前。后一條用意很明顯,雙11是天貓最重要的消費節點,這一天的交易額代表著阿里交易業務甚至中國電商市場的繁榮程度。萬一DNA項目出現任何差錯,都會讓這一天的阿里顏面掃地。

時任淘寶負責人張宇也表態支持項目開展,她認為此事對于淘寶系的交易平臺至關重要,但有沖突的是,她希望保持淘寶的強勢,比如能夠整理清晰的類目一定要做到規范標準,但對于暫時理不清的類目,她希望從淘寶剝離出去的天貓能夠遵循淘寶的規則。

阿里的搜索、廣告、聚劃算等業務部門的意見也各自不同。特別是廣告部門,年底要沖業績,極力希望大搬家推遲。最終,王曦若和趙營苗的團隊用了兩三個月時間,說服集團高層拍板決定2014年初啟動DNA項目。

朱春勇帶領的運營團隊是2013年5月加入DNA項目組的。彼時移動互聯網船票戰爭奪已經火熱,騰訊的微信如日中天。淘寶系的后臺體系是以PC端為基礎構建的,整體結構謹慎安全,但在以輕和快為標準節奏的移動互聯時代,它顯得繁瑣和沉重。朱春勇說,“我們希望未來淘寶的商品信息架構是輕便和靈活的?,F在人人都可以是電商賣家,比如我家院子有棵石榴樹,可能就是一瞬間的想法,我用手機拍下來,發到淘寶上去賣。”

DNA項目團隊有30多人,分為兩批:一批是對商品或者賣家比較熟悉的人,及時和賣家溝通,把商品相關行業的現狀和趨勢摸透,為技術后臺重構數據庫做準備;另一批是對淘寶系產品比較熟悉的人,他們有良好的技術背景,做過產品經理,能從產品和用戶體驗方面對新的商品數據庫提供意見。

淘寶的類目數據梳理也交給了朱春勇的團隊。在看似完備的類目體系上,他們發現了諸多瑣碎問題,比如材質為牛皮的商品,有女裝,有男裝,有包,有鞋等,這些類目之下的牛皮屬性值都不一樣,商品數據就因此多出幾串不必要的數字,把整個商品數據庫撐得龐大冗余。“把這些混亂的數據整理出來,在技術層面是很難實現的。我們都會人工去做,人肉輸入和整理。僅僅這項工作,就花費了整個團隊半年多的時間?!?/p>

接下來,他們跟行業專家交流,還跟商標網、國家物品編碼中心等專業機構交流,要把淘寶系商品信息做得既有數據化屬性,又符合國家和行業規范。賣家的意見也非常重要。每一類的商品信息數據化之前,運營團隊都會聯系這類商品賣家集中的區域,做一兩次集中訪談。

2013年12月25日,圣誕節,阿里西溪園區布滿圣誕樹和彩燈,很多員工放假回家過節,但阿里DNA團隊卻沒有這項“福利”,DNA項目最后也是最重要的環節——更換技術后臺將于2014年1月13日晚正式啟動,他們必須加班加點。

阿里的野心

孔柏漢的神經一直處于緊張狀態。從2013年12月25日開始,他所在的小組開始負責淘寶商品數據訂正,也就是把整個類目的商品屬性值進行重新更改和修訂。在操作期間,賣家不能在后臺發布或更改商品信息,但買家可以正常交易。然而一旦訂正失誤,整個類目系統都會癱瘓。

整個淘寶系共有20億商品,每個商品都有自己的獨立代碼,一旦出現兩種商品代碼一致,可能整個類目都會凍結癱瘓。趙營苗說,如果發生這種情況,就會影響到前端用戶的交易,這會是很嚴重的事故,必須做好各種預案,沒人敢掉以輕心。這不僅僅與阿里整個平臺有關,更關系到數百萬的淘寶系賣家、超過5億的注冊用戶,一定不能出問題,“一定要把這個飛機引擎換好?!?/p>

1月13日之前,齊國梁所在的5人小組負責技術底層風險點的梳理。阿里集團涉及交易的20多個業務部門梳理出來300多個風險點,齊國梁小組的任務就是拿出規避這些風險的預案。“到了1月13日,我們的風險點梳理工作完成,又立即投入數據遷移。”

好在這場不為人知的硬戰順利完成。1月13日到1月30日,歷經每晚從7點到次日早晨7點的奮戰,手機、3C等5大類目的數據遷移全部完成,而且沒有一次影響平臺前端的購物交易。阿里的生命之樹換上了部分新的血液。

2月12日下午,杭州下了2014年的第二場雪,阿里商品開發技術平臺團隊所在的5號樓“九天閣”會議室,王曦若拍著趙營苗的肩膀說:“哥們,今晚開始又是一場硬戰,讓兄弟們加油啊!”

12個日以繼夜的緊張過后,商品開發技術平臺團隊終于松了口氣。趙營苗站在DNA項目會議室,對滿臉倦容的20多個員工說:“兄弟們,回家睡覺吧,我們完工啦!”

至此,淘寶20億商品的信息數據遷移全部完成?!皬挠脩舻慕嵌葋碚f,這個項目還暫時感受不到變化。我們第三個階段就是修訂子類目,項目完成后,用戶在使用搜索和類目時就會有新體驗,到時候淘寶商品將一改繁雜混亂的狀態,以一種相對整齊、規范、清新的姿態出現在用戶面前?!壁w營苗說。

阿里并不止于做達爾文計劃和DNA項目,更有野心打造整個中國電商行業的標準商品體系,甚至有一天淘寶天貓的商品信息庫不僅服務于自身,也可以服務到站外,服務到愿意擁抱互聯網的傳統企業。朱春勇說,“比如有一個賣家,他在線下有自己的品牌、專賣店、工廠,同時他也代理別的品牌,他可以做淘寶集市C2C,他也可以給天貓供貨,他可能還走京東、當當的渠道……其實整個互聯網目前沒有一個統一的商品標準。我們做DNA的愿景,就是建立一個全網甚至線下都能用的統一的商品信息體系。”

達爾文在其進化論的代表作《物種起源》里寫道:“芽由于生長而生出新芽,這些新芽如果健壯,就會分出枝條遮蓋四周許多較弱枝條,所以我相信,這巨大的‘生命之樹’在其傳代中也是這樣,這株大樹用它的枯落的枝條填充了地殼,并用它的生生不息的美麗的枝條遮蓋了地面?!?/p>

  本文作者雪姬

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發揮!