國內有一家民營航空公司,會員不下數百萬,會員的一個重要信息是郵箱地址。另外一邊,微博賬號申請也需要一個郵箱地址。通常來說,同一個郵箱地址意味著航空公司里的會員和微博里的會員,應該是同一個人。公司做了一個篩選,合并出十萬個用戶來。
然后一家第三方公司的數據部門介入,主要任務是看這十萬航空公司會員的微博用戶,在社會化媒體上的行為,比如“說”些什么,比如喜歡介入什么樣的話題去轉發評論,比如喜歡關注什么樣的商業賬號。研究這類事的原因在于:這個航空公司很想知道它在社會化媒體上發起什么樣的活動(以及活動所配備的禮品刺激)會吸引到這十萬會員參加,成為earned media。
這個案例并非嚴格意義上的大數據,因為數據還是不夠海量。不過,它的原理和大數據營銷有關:尋求相關性。
相關性不是因果,很難得出這樣的結論:因為經常坐某某航空公司的班機,所以喜歡參與某某活動(反過來也不成立)。但這兩個變量之間,從普遍意義上講,存在一定的關聯。這個道理就像穿紅襪子和炒股票的關系,或許有一定的關聯系數,但絕不是因果關系。相關搞成了因果,差不多和“迷信”就沒有區別了。
商業應用上,其實不太需要拼命挖掘因果。你只要知道坐該航空公司班機和參加特定活動之間存在一定概率就行了,至于究竟是為什么,可以暫時忽略之。對于營銷業者而言,這個概率哪怕能幫助到營銷活動提高10%參與度,都是不小的成效。
但問題在于,很多人把相關等同于因果,這樣的做法會形成很有些誤導性的結論。比如說,當在這個十萬航空公司用戶中發現,他們特別喜歡某類活動,這個結論是不具有推廣性質的。再新增五萬航空公司微博用戶時,你很難把上述那個結論也放他們頭上。因為這里面沒有因果關系。要確認因果關系,必須經過一個很復雜的觀察和思考過程,排除所謂“隱性變量”。這不是那么簡單的做一些數據分析就可以的。相關性是因果的前提,但是不等于因果。
于是,大數據出現了。
大數據尋求的是海量數據,海量到什么份上?就是全樣本。全樣本和抽樣顯然是不同的。過去的研究,由于操作性的關系,很難做到全樣本,需要去抽樣。抽樣的科學做法是“隨機”——不過這一點聽著容易,做起來相當困難。真正的隨機抽樣需要花很多錢(利用社交網絡關系,通過一個用戶做問卷再發動這個用戶找更多的人來做問卷,一點都不隨機),而且一個無法繞過的弊端在于:如果你使用調查問卷的方法,你很難排除回答者的語言回答一定就是ta心中真正的想法或者實際上的真正行為。
大數據首先不是抽樣,它獲得的數據是全體樣本數據,其次它不是在讓用戶回答問題,而是實打實地去獲取用戶的“行為”。用戶聲稱對某活動會有興趣和用戶是否參加了某活動,顯然后者更能說明問題。
最重要的一點,大數據分析和抽樣分析的核心區別在于:前者是動態的,后者是靜態的。
前文提到,隨機抽樣方法是成本很高的,故而它很難每天都去做一次——事實上,為某個特定的問題一個月乃至一個季度做一次隨機抽樣,都很難實施。于是,一個隨機抽樣所形成的結論,其實是靜態的,它只能說明在做那次調研時的一些相關性。當有新的用戶(樣本)加入時,很難再說明過去的相關性是否能夠成立——除非,你能找到真正的排除了各種隱形變量后的因果關系。
如果試圖減少成本去做非隨機抽樣,那么,它的結論就更沒有推廣意義(學術一點稱之為外部效度性,非隨機抽樣外部無效度)。當新用戶加入后,非隨機抽樣的結論基本不能適用。
但大數據的分析卻是動態的,每秒都有可能產生一個新的結論。讓我們用最常見的亞馬遜頁面上的“購買此商品的顧客也同時購買”來舉例。
這個部分里的商品是活動的,由于新購買的產生,會導致這個模塊里的商品可能會產生變化。不過,這個模塊也有可能是導致商品集中化購買的重要原因:用戶看到了這個模塊里推薦的商品而產生購買的可能是很大的(也許ta本來就沒有任何購買的念頭,甚至連這個商品都不曉得)。但對于大數據來說,原因是什么一點也不重要,它要做的——至少在電子商務領域——無非是提高客單價罷了。買了A書和買了B書之間的因果研究,那是學者們的事,不是商人關心的事。
大數據處理的方式不是探幽細究型的,挖空心思去想究竟原因為何沒有這個必要,不過拿出一些結論來演繹也是會鬧笑話的:比如吃海參有助于提高智商。大數據其實不需要做什么演繹,它的任務只是讓你在某一時刻能做到提升成功率的事,哪怕只有1%。量一大,1%都是極其可觀的。
回到航空公司的具體案子來。10萬同時擁有航空公司會員和微博會員的人,并非隨機抽樣而得,故而這10萬對于整體數百萬航空公司會員而言,沒有代表性。但我們的目標不是想尋求坐這家航空公司班機的人和參與某網絡活動的因果關系,我們只是想提升一下參與活動概率并希望看到更多人會去轉發某個活動罷了。故而,10萬微博用戶,夠了。
在某一個時點,跑了一下數據,大致能看到一些相關性,于是我們開始設計某種活動,并有針對性地讓這10萬微博用戶知道,這次獲得的參與度和轉發率,比毫無數據支撐背景下的胡亂策劃,成功率應該會高一點。同樣的人力投入,得到了相對而言的較高效果,這就是數據分析的好處。
過了三個月后,又有需要策劃的活動,注意,這一次依然需要再跑一次數據。因為樣本可能不是只有10萬了,也許15萬,也許運氣不好有2萬微博用戶已經“死亡”,只剩8萬。另外一個可能是有某些新的外部變量加入,比如出來一種新的商品讓很多人趨之若鶩高度關注。這個時候拿上一次的數據來指導策劃,又是盲人騎瞎馬,夜半臨深淵了。
不同的時點,或者目標不同的活動,都需要再次跑數據,這可能是大數據分析的麻煩之處。不過,計算機的長處就是計算,花上一兩個小時設計幾個公式或模型,相對于過去動不動要搞隨機抽樣,便利性提高很多倍,值得嘗試。
更宏大一點的就是真正意義上的“大數據”了。今年年頭互聯網圈阿里要并購新浪微博,從商業邏輯上講,一個是中國最大的消費平臺,一個是中國最大的碎片化言論平臺,兩者數據的合并,是頗能挖出更多的相關性來。
當你發表一條微博時,忽然配套出來了一條廣告。是的,你很煩,感覺又被騷擾了。但從商業角度而言,如果你過去的煩是一萬次廣告推送才會有一次點擊,現在變成九千次一次點擊,都是了不得的進步。一萬次為什么會變成九千次?因為一個人的言論和ta的消費傾向,的確是存在一定相關性的。
廣告圈里一句名言:我知道我的廣告浪費了一半,但我不知道浪費了哪一半。一些營銷業者鼓吹說他們可以讓你不浪費那一半。不要相信他們。對于廣告來說,從浪費50%到浪費49%,都是很值得去投入的事。建立在相關性而非因果上的大數據營銷,不可能讓廣告主從此不再浪費廣告,它只能做到:浪費得少一點。
這就夠了。
—— ——
再說一下隨機樣本和全樣本的關系。理論上講,你可以設計一個模型,每秒鐘都在那里抽樣,不是沒有操作性。但問題在于,隨機抽樣生成的結果都存在一定誤差,既然手上已經有全樣本,又何必去搞什么抽樣。對于計算機而言,計算1億個樣本,和計算一千個樣本,代價雖然有差,但全樣本沒有誤差,已足以彌補這點代價。
來自艾瑞網,本文由扯氮集博主魏武揮原創撰寫