5年增長400倍,Airbnb首位數據科學家揭秘他們到底是怎樣做到的?
五年前我加入了Airbnb,成為公司第一位數據科學家。
當時人們連公司的名字都不會發音,如果不算正在接受心理咨詢的哥們兒,實習生,旁邊咖啡店里的咖啡師,團隊只有大約七個人。我們的公司就在創始人在SOMA的公寓旁。工作環境也十分簡陋。
當時大數據的狂熱還未開始,人們僅僅認為數據會帶來一定的競爭優勢。通常情況下人們會在公司成熟以后建立自己的數據團隊。而我們的創始人非常具有前瞻性,邀請我作為數據科學家在公司成立初期就迫不及待地著手籌建自己的數據團隊,并通過數據驅動不斷學習和迭代產品。深深地被公司的文化和愿景吸引,在公司運營數據少的可憐的情況下,我決定加入。
在硅谷流傳著一句非常羅曼蒂克的話,準確決策和快速行動會讓任何小的創意成為大的變革。我對此深信不疑。當時我們并不非常了解Airbnb的業務,任何洞察都十分有創造力。數據架構效率高,運行穩定并且可以做到數據的實時處理(我當時用MySQL對我的產品數據進行檢索。由于公司很小,每個人都能了解公司的各個決定。數據團隊(我自己)著手處理一些單一維度的指標,方法論也相對初級。
五年之間我們經歷了430倍的增長,事物也越來越復雜了。
我很開心我的團隊能利用數據處理更復雜的問題。我們迅速將這些方法論與經驗規?;?,這些給我們帶來過增長奇跡的經驗幫助我們更自如的面對現在出現的問題。
隨著公司的成長,我們有必要將遇到的具體問題和概括性問題進行配對,借此總結一套解決問題的方法論。
如何建立以數據科學為中心支撐公司不同部門業務的商業模式呢?
我們可以分成三塊來看:
首先,如何針對不同部門的業務特點建立不同部門的數據科學,
其次,如何將數據科學應用到商業決策,
最后,如何將數據科學規模化以便于支持Airbnb業務的方方面面。
我不敢說,Airbnb的方方面面是完美的,但是我們的工作一直保持著創業早期的激情。
一、數據不是數字,它代表客戶心聲
數據科學在Airbnb存在的基石是公司無處不在的數據文化,你會在公司的各個領域感受到數據的存在。我們對數據重要性的認可是數據科學能在公司生根發芽的前提。
在過去數據并不受重視,僅僅被認為是用來衡量問題的工具而已。給人的感覺是數據科學家就像(星際迷航中的)Spock博士,僅僅用來根據需求呈現統計數據結果而已。舉個例子,數據科學家(在過去)僅僅用來回答問題諸如我們在巴黎有多少房源?意大利最受歡迎的10大景點是哪些?
雖然回答簡單的數據問題和用數據對問題進行衡量確實是數據科學家的工作之一,但是在Airbnb我們將數據賦予了更多人文色彩:數據是顧客的呼聲。一行數據代表一個動作或者一個事件。這些數據在大多數情況下反應的是一名客戶的決定。如果你能復現導致決策產生的一系列事件,你就能從這個過程中有所收獲。這個過程本質上是通過一種間接的方式來告訴我們客戶喜歡什么討厭什么。程序化的復現并且通過監控獲取一組客戶行為以及客戶使用的功能,比獨立的單個的統計哪些功能重要哪些功能不重要好得多。
通過程序化復現收集客戶信息對于商業決策有重要意義,如果我們能很好的分析,那么對于社區增長,產品研發,資源優化的意義簡直就像我們發現了金礦。其實數據科學就把客戶的呼聲用數據的語言去表示,畢竟數據呈現商業問題更簡約,更方便于商業決策。
傾聽客戶的聲音是我們公司的核心文化,這個想法也得到了Airbnb所有人的認同。自從創業初期,我們團隊就市場與我們的社區成員互動,我們想更好的了解他們,設計出更好的產品來滿足他們的需求。我們現在依舊與他們互動,但是現在社區的規模已經無法讓我們輕松地與他們互動了。
因此數據成了我們最好的伙伴。我們用統計學的方法,去了解每一位客戶,并將他們產生的數據匯集起來形成整體去挖掘趨勢。正是對這些趨勢的掌控,我們能夠更好的去推進Airbnb的業務。隨著時間的變化,我們其他團隊的伙伴也逐步了解了數據團隊不是(星際迷航)的瓦肯人(信仰嚴謹的邏輯和推理、去除情感的干擾聞名)。數據團隊呈現著客戶的想法和呼聲。正是這個改變,為數據科學在Airbnb結構與職能的改變鋪平了道路。
二、主動出擊與被動統計收集
一個優秀的數據科學家可以讀懂客戶在使用我們產品時的心聲。當然如果僅僅挖掘出問題而沒有人去行動的話,沒有任何意義。
我們認為區分好與優秀的重要標準是影響力-通過(數據分析得到的)洞察去影響決策并且確保決策產生真正的效果。這看起來是再平常不過的事兒了,但是它卻不會自然而然的發生。緊張的工作總讓數據科學家感到時間不夠用,往往顧此失彼,有時候他們就把問題束之高閣去看別的問題了。這并不是因為他們不想去思考這些問題,而是有時候他們感到并不值得:往往他們花費巨大的人力和時間去理解數據,保證統計方法的嚴謹,確保統計結果解讀的準確性。做這么多東西常常讓他們感到這不過是鎖碎的問題總結,被動地回應一些需求。他們感到這不會對公司未來產生什么影響。
但是如果決策者不能解讀這些數據洞察,那么他們肯定不會依據這些洞察采取行動。當然如果沒有采取行動,我們所做的分析也就沒了意義。因此數據科學家和決策者應該建立更加緊密的合作關系。在一些情況下,這是很自然的事兒。比如說當我們開發數據項目。在Airbnb,多部門的合作機制也讓數據團隊在整個組織架構下有了新的呈現方式。
是否將數據科學團隊當作一個整體中心化,還是將團隊分散到不同職能部門中?這樣的討論很多,但是我現在不想關注這一點。我想說的是在Airbnb, 我們將這兩種方式融合到了一起。
我們最開始是用的中心化方式,因為這樣所有團隊成員可以近距離的相互學習并且大家有一致的經驗,目標和方法論。我們最終的目的是商業決定,而采取中心化模式有時候不能成功。其他團隊有時候不清楚如何與我們互動,而數據科學團隊有時因為信息的缺失而不知道自己要去解決什么問題或者使問題解決方法具有實操性。慢慢地,數據團隊成了資源,別的團隊有需求時候才會有回應。我們被動回應統計需求而不是主動去發現新的機遇。
正因如此,我們我們對團隊架構進行了改組。將中心化模型逐步改為混合式。我們依然遵從中心模型,所有的數據科學家在近日Airbnb初期隸屬數據團隊,然后我們將數據團隊在劃分為幾個小型團隊,不同團隊和工程,設計,產品經理,市場聯系各自建立緊密關系。
這種變革加速了數據文化在公司的傳播,同時也讓數據科學家從傳統的數據統計收集者轉向主動發現問題的合作者。正因為我們并沒有將數據團隊全部分散到不同部門,我們可以很好的去觀察業務的方方面面,我們可以建立一套像神經網絡式的結構來幫助Airbnb不同部門彼此學習。
三、客戶驅動的決策
構建一套數據職能體系可以讓公司充分感受到數據科學帶來的變化。當然這只是部分而已。一旦分析決策能夠順利落地,我們下一個要考慮的問題是以什么樣的方法在什么樣的時間發揮社區的呼聲對于商業決策的影響力。
雖然數據團隊和公司的方方面面建立了合作關系,在將數據與項目結合方面,我們依然受到很多觀點的挑戰。一些人僅僅是有興趣,只是想用數據著手了解他們遇到的問題。另一些人將數據看作一種過去事件的總結,認為這對未來規劃意義不大,不過有趣的是他們會更加關注衡量一些(他們所做出但)感性決定的效果。
這兩種觀點很公平。完全的數據驅動可以進行局部優化;然而全局優化卻需要不斷的對整個系統進行改革。那么數據在項目的何時開始發揮作用呢?
我們認為不同的數據科學元素能使以下四步決策過程受益:
- 我們首先要了解問題的背景,將過去的研究進行匯總,以此來發現一些可能的機會。這是一個探索的過程,以此來抓住機會和提出一些假設,這些假設能夠提供給我們一些落地的洞察。
- 我們將這些匯總轉化成計劃,這些計劃包括排優我們想要利用的一些杠桿,形成一些假設去分析我們所做工作的影響力。預測分析的方法在這個階段會比較適合,因為在這個階段我們必須做出一些決定:諸如我們應該遵從何種路線,當然我們希望我們所找的這條路線是會產生最大的影響力的那一條。
- 計劃完成后,我們需要設計對照實驗來檢測我們的計劃。A/Btest很常見,但是因為Airbnb可以整合公司所有業務資源,這樣我們不但可以將實驗應用的更加廣泛,(比如說以市場為基礎的運營測試。)還可以在更加傳統的線上環境中進行試驗。
- 最后,我們衡量試驗的結果,挖掘出我們的工作和工作所產生的影響力。
有時候決策過程非常簡單,比如我們設計一款手機應用并不需要太多的前期總結。但是我們一直遵循這一套行事方法,我們發現每個人在Airbnb的影響力也就越來越大。畢竟我們這一套步驟使我們將目光集中在解決社區(客戶)大問題上。
四、數據科學的民主化
如果我們有足夠的數據科學家儲備,那上面的模型非常好。但是初創公司快速增長,做決策頻率也大幅增長,這種增長速度要遠大于數據團隊擴增速度。
2011年Airbnb 迅速全球擴張,這一點體現點更加明顯了。2011年初期,我們只是一個在三番的小公司,只有三個科學家(當然我們團隊十分高效)。
六個月以后,我們在全球新擴張了10個新的辦公室。與此同時我們的的產品,市場營銷,客戶支持團隊也擴張十分迅速。而這也導致了數據科學團隊與其他員工的合作效果大幅降低。
我們無法滿足社區成員的需求,與其他成員的交流也變的十分困難。我們需要找到一種方法去讓工作民主化,將個體交流擴大為團隊交流,公司交流,和社區交流。
通過對數據科技的不斷投資,我們讓民主決策成為現實。我來給大家分享幾個不同階段數據科學民主化的例子。
- 如果數據科學家使用的工具更加強大迅速,那么(公司內的)個人交流就會更有效。數據基礎層面的建設是重要的杠桿。這可以使我們通過更先進更可靠的技術去處理迅猛增長的數據。讓ETL過程更穩定也非常有價值,例如我們研發的Airflow系統。
- 讓團隊獲得更多的權利意味著給數據科學家們移除一些負擔,比如說簡單的報表和基本的數據查探之類的工作就沒必要讓數據科學家們來做了,這樣他們就可以關注更重要的事情??窗迨且粋€通常的解決問題的方法。我們也研發了更好的工具AirPal,一個讓人們檢索更穩健,更直觀的數據倉庫。
- 在小型團隊中我們經常做一些技能型工作,除了這些以外,我們以培養數據文化為己任。從大的方面來說,我們培養人們思考公司的數據生態系統,具體一些我們對一些數據工具如AirPal 進行培訓。一旦人們能夠使用這些工具,他們就能由著自己的好奇心進行探索數據了。和授權團隊一樣,這也我們就不會陷入處理日常統計需求的煩惱之中了。
- 數據科學規?;顝V泛的一個例子是讓房客和房主能夠直接了解彼此。通過我們的數據產品,將機器學習的模型應用于解讀從一個社區成員發出的信號,然后借此去幫助其他成員。地點相關性模型也是一個例子,不過這個模型在公司其他團隊對這個問題的探究越來也越常見。我們也已經研發了新的工具去使用和理解這些模型。
規模化數據科學團隊在一家極速增長的公司并不容易。如果公司每個人認為數據科學是公司的基本部分而不是錦上添花的部分。那這就可以發生。
五、數據驅動的機遇和挑戰
這五年,我們學到了很多。我們提升使用數據去解決問題的能力。我們與決策者的交流也越來越好,于此同時我們還把數據分析的思維向全公司推廣。但是我們所做的這些工作到底有多成功呢?
衡量數據科學團隊的作用和影響力并不是一件容易事兒,但是所有人都認為技術背景的人和業務人員都應該去用數據支持他們的決策。數據科學家團隊在決策過程中起到了咨詢師的作用。現在我們和決策者共同決策,并不是被動的收集需求。
數據科學團隊的另一個影響是我們深入挖掘我們所做工作的所帶來的影響。做這件事情其實比想象的還要復雜,因為Airbnb的數據生態系統非常復雜。市場供需平衡會收到網絡影響,季節性很很強波動較大,交易周期也具有不確定性,時間范圍也很長。當然這些挑戰兒讓我們更加興奮。雖然我們取得了不少成績,但是我們的潛力還沒有被挖掘出很多。
現在我們數據底層很穩定,工具功能強大,而且數據倉庫構建清晰可依靠。而且我們也有了更大目標,去解決更多問題。首先我們要將數據的批次分析提升為數據的實時分析。建立一套更強健有力的數據庫異常偵查系統。更深入地去了解網絡影響,增強我們對房東房客配比和個性化需求的理解。
當然這些想法只是開始。我們知道數據是客戶的心聲。客戶會將我們指引到他們想要到達的地方。
本文由GrowingIO商務分析師檀潤洋繹自Riley Newman 的《Airbnb,Data Science Belongs Everywhere: Insights from Five Years of Hypergrowth》,原文鏈接?http://nerds.airbnb.com/scaling-data-science/
本文由 @檀潤洋 翻譯發布于人人都是產品經理。未經許可,禁止轉載。
- 目前還沒評論,等你發揮!