數(shù)據(jù)驅(qū)動(dòng)設(shè)計(jì):數(shù)據(jù)處理流程、分析方法和實(shí)戰(zhàn)案例

4 評(píng)論 15981 瀏覽 814 收藏 39 分鐘

一、大數(shù)據(jù)思維

在2011年、2012年大數(shù)據(jù)概念火了之后,可以說這幾年許多傳統(tǒng)企業(yè)也好,互聯(lián)網(wǎng)企業(yè)也好,都把自己的業(yè)務(wù)給大數(shù)據(jù)靠一靠,并且提的比較多的大數(shù)據(jù)思維。

那么大數(shù)據(jù)思維是怎么回事?我們來看兩個(gè)例子:

案例1:輸入法

首先,我們來看一下輸入法的例子。

我2001年上大學(xué),那時(shí)用的輸入法比較多的是智能ABC,還有微軟拼音,還有五筆。那時(shí)候的輸入法比現(xiàn)在來說要慢的很多,許多時(shí)候輸一個(gè)詞都要選好幾次,去選詞還是調(diào)整才能把這個(gè)字打出來,效率是非常低的。

到了2002年,2003年出了一種新的輸出法——紫光拼音,感覺真的很快,鍵盤沒有按下去字就已經(jīng)跳出來了。但是,后來很快發(fā)現(xiàn)紫光拼音輸入法也有它的問題,比如當(dāng)時(shí)互聯(lián)網(wǎng)發(fā)展已經(jīng)比較快了,會(huì)經(jīng)常出現(xiàn)一些新的詞匯,這些詞匯在它的詞庫里沒有的話,就很難敲出來這個(gè)詞。

在2006年左右,搜狗輸入法出現(xiàn)了。搜狗輸入法基于搜狗本身是一個(gè)搜索,它積累了一些用戶輸入的檢索詞這些數(shù)據(jù),用戶用輸入法時(shí)候產(chǎn)生的這些詞的信息,將它們進(jìn)行統(tǒng)計(jì)分析,把一些新的詞匯逐步添加到詞庫里去,通過云的方式進(jìn)行管理。

1

比如,去年流行一個(gè)詞叫“然并卵”,這樣的一個(gè)詞如果用傳統(tǒng)的方式,因?yàn)樗且粋€(gè)重新構(gòu)造的詞,在輸入法是沒辦法通過拼音“ran bing luan”直接把它找出來的。然而,在大數(shù)據(jù)思維下那就不一樣了,換句話說,我們先不知道有這么一個(gè)詞匯,但是我們發(fā)現(xiàn)有許多人在輸入了這個(gè)詞匯,于是,我們可以通過統(tǒng)計(jì)發(fā)現(xiàn)最近新出現(xiàn)的一個(gè)高頻詞匯,把它加到司庫里面并更新給所有人,大家在使用的時(shí)候可以直接找到這個(gè)詞了。

案例2:地圖

2

再來看一個(gè)地圖的案例,在這種電腦地圖、手機(jī)地圖出現(xiàn)之前,我們都是用紙質(zhì)的地圖。這種地圖差不多就是一年要換一版,因?yàn)樵S多地址可能變了,并且在紙質(zhì)地圖上肯定是看不出來,從一個(gè)地方到另外一個(gè)地方怎么走是最好的?中間是不是堵車?這些都是有需要有經(jīng)驗(yàn)的各種司機(jī)才能判斷出來。

在有了百度地圖這樣的產(chǎn)品就要好很多,比如:它能告訴你這條路當(dāng)前是不是堵的?或者說能告訴你半個(gè)小時(shí)之后它是不是堵的?它是不是可以預(yù)測路況情況?

此外,你去一個(gè)地方它可以給你規(guī)劃另一條路線,這些就是因?yàn)樗杉皆S多數(shù)據(jù)。比如:大家在用百度地圖的時(shí)候,有GPS地位信息,基于你這個(gè)位置的移動(dòng)信息,就可以知道路的擁堵情況。另外,他可以收集到很多用戶使用的情況,可以跟交管局或者其他部門來采集一些其他攝像頭、地面的傳感器采集的車輛的數(shù)量的數(shù)據(jù),就可以做這樣的判斷了。

屏幕快照 2016-03-11 上午10.25.01

這里,我們來看一看紙質(zhì)的地圖跟新的手機(jī)地圖之間,智能ABC輸入法跟搜狗輸入法都有什么區(qū)別?

這里面最大的差異就是有沒有用上新的數(shù)據(jù)。這里就引來了一個(gè)概念——數(shù)據(jù)驅(qū)動(dòng)。有了這些數(shù)據(jù),基于數(shù)據(jù)上統(tǒng)計(jì)也好,做其他挖掘也好,把一個(gè)產(chǎn)品做的更加智能,變得更加好,這個(gè)跟它對(duì)應(yīng)的就是之前可能沒有數(shù)據(jù)的情況,可能是拍腦袋的方式,或者說我們用過去的,我們想清楚為什么然后再去做這個(gè)事情。這些相比之下數(shù)據(jù)驅(qū)動(dòng)這種方式效率就要高很多,并且有許多以前解決不了的問題它就能解決的非常好。

二、數(shù)據(jù)驅(qū)動(dòng)

對(duì)于數(shù)據(jù)驅(qū)動(dòng)這一點(diǎn),可能有些人從沒有看數(shù)的習(xí)慣到了看數(shù)的習(xí)慣那是一大進(jìn)步,是不是能看幾個(gè)數(shù)這就叫數(shù)據(jù)驅(qū)動(dòng)了呢?這還遠(yuǎn)遠(yuǎn)不夠,這里來說一下什么是數(shù)據(jù)驅(qū)動(dòng)?或者現(xiàn)有的創(chuàng)業(yè)公司在進(jìn)行數(shù)據(jù)驅(qū)動(dòng)這件事情上存在的一些問題。

屏幕快照 2016-03-11 上午10.25.22

一種情況大家在公司里面有一個(gè)數(shù)據(jù)工程師,他的工作職責(zé)就是跑數(shù)據(jù)。

屏幕快照 2016-03-11 上午10.25.59

不管是市場也好,產(chǎn)品也好,運(yùn)營也好,老板也好,大家都會(huì)有各種各樣的數(shù)據(jù)需求,但都會(huì)提給他。然而,這個(gè)資源也是有限的,他的工作時(shí)間也是有限的,只能一個(gè)一個(gè)需求去處理,他本身工作很忙,大家提的需求之后可能并不會(huì)馬上就處理,可能需要等待一段時(shí)間。即使處理了這個(gè)需求,一方面他可能數(shù)據(jù)準(zhǔn)備的不全,他需要去采集一些數(shù)據(jù),或做一些升級(jí),他要把數(shù)據(jù)拿過來。拿過來之后又在這個(gè)數(shù)據(jù)上進(jìn)行一些分析,這個(gè)過程本身可能兩三天時(shí)間就過去了,如果加上等待的時(shí)間更長。

對(duì)于有些人來說,這個(gè)等待周期太長,整個(gè)時(shí)機(jī)可能就錯(cuò)過了。比如,你重要的就是考察一個(gè)節(jié)日或者一個(gè)開學(xué)這樣一個(gè)時(shí)間點(diǎn),然后想搞一些運(yùn)營相關(guān)的事情,這個(gè)時(shí)機(jī)可能就錯(cuò)過去了,許多人等不到了,有些同學(xué)可能就干脆還是拍腦袋,就不等待這個(gè)數(shù)據(jù)了。這個(gè)過程其實(shí)就是說效率是非常低的,并不是說拿不到這個(gè)數(shù)據(jù),而是說效率低的情況下我們錯(cuò)過了很多機(jī)會(huì)。

屏幕快照 2016-03-11 上午10.26.20

對(duì)于還有一些公司來說,之前可能連個(gè)數(shù)都沒有,現(xiàn)在有了一個(gè)儀表盤,有了儀表盤可以看到公司上個(gè)季度、昨天總體的這些數(shù)據(jù),還是很不錯(cuò)的。

屏幕快照 2016-03-11 上午10.26.38

對(duì)老板來說肯定還是比較高興,但是,對(duì)于市場、運(yùn)營這些同學(xué)來說可能就還不夠。

比如,我們發(fā)現(xiàn)某一天的用戶量跌了20%,這個(gè)時(shí)候肯定不能放著不管,需要查一查這個(gè)問題出在哪。這個(gè)時(shí)候,只看一個(gè)宏觀的數(shù)那是遠(yuǎn)遠(yuǎn)不夠的,我們一般要對(duì)這個(gè)數(shù)據(jù)進(jìn)行切分,按地域、按渠道,按不同的方式去追查,看到底是哪少了,是整體少了,還是某一個(gè)特殊的渠道獨(dú)特的地方它這個(gè)數(shù)據(jù)少了,這個(gè)時(shí)候單單靠一個(gè)儀表盤是不夠的。

屏幕快照 2016-03-11 上午10.26.55

理想狀態(tài)的數(shù)據(jù)驅(qū)動(dòng)應(yīng)該是怎么樣的?就是一個(gè)自助式的數(shù)據(jù)分析,讓業(yè)務(wù)人員每一個(gè)人都能自己去進(jìn)行數(shù)據(jù)分析,掌握這個(gè)數(shù)據(jù)。

前面我講到一個(gè)模式,我們?cè)搭^是一堆雜亂的數(shù)據(jù),中間有一個(gè)工程師用來跑這個(gè)數(shù)據(jù),然后右邊是接各種業(yè)務(wù)同學(xué)提了需求,然后排隊(duì)等待被處理,這種方式效率是非常低的。理想狀態(tài)來說,我們現(xiàn)象大數(shù)據(jù)源本身整好,整全整細(xì)了,中間提供強(qiáng)大的分析工具,讓每一個(gè)業(yè)務(wù)員都能直接進(jìn)行操作,大家并發(fā)的去做一些業(yè)務(wù)上的數(shù)據(jù)需求,這個(gè)效率就要高非常多。

三、數(shù)據(jù)處理的流程

屏幕快照 2016-03-11 上午10.27.25

大數(shù)據(jù)分析這件事用一種非技術(shù)的角度來看的話,就可以分成金字塔,自底向上的是三個(gè)部分,第一個(gè)部分是數(shù)據(jù)采集,第二個(gè)部分是數(shù)據(jù)建模,第三個(gè)部分是數(shù)據(jù)分析,我們來分別看一下。

數(shù)據(jù)采集

屏幕快照 2016-03-11 上午10.28.03

首先來說一下數(shù)據(jù)采集,我在百度干了有七年是數(shù)據(jù)相關(guān)的事情。我最大的心得——數(shù)據(jù)這個(gè)事情如果想要更好,最重要的就是數(shù)據(jù)源,數(shù)據(jù)源這個(gè)整好了之后,后面的事情都很輕松。

用一個(gè)好的查詢引擎、一個(gè)慢的查詢引擎無非是時(shí)間上可能消耗不大一樣,但是數(shù)據(jù)源如果是差的話,后面用再復(fù)雜的算法可能都解決不了這個(gè)問題,可能都是很難得到正確的結(jié)論。

我覺得好的數(shù)據(jù)處理流程有兩個(gè)基本的原則,一個(gè)是全,一個(gè)是細(xì)。

全:

就是說我們要拿多種數(shù)據(jù)源,不能說只拿一個(gè)客戶端的數(shù)據(jù)源,服務(wù)端的數(shù)據(jù)源沒有拿,數(shù)據(jù)庫的數(shù)據(jù)源沒有拿,做分析的時(shí)候沒有這些數(shù)據(jù)你可能是搞歪了。另外,大數(shù)據(jù)里面講的是全量,而不是抽樣。不能說只抽了某些省的數(shù)據(jù),然后就開始說全國是怎么樣??赡苡行┦》浅L厥?,比如新疆、西藏這些地方客戶端跟內(nèi)地可能有很大差異的。

細(xì):

其實(shí)就是強(qiáng)調(diào)多維度,在采集數(shù)據(jù)的時(shí)候盡量把每一個(gè)的維度、屬性、字段都給它采集過來。比如:像where、who、how這些東西給它替補(bǔ)下來,后面分析的時(shí)候就跳不出這些能夠所選的這個(gè)維度,而不是說開始的時(shí)候也圍著需求。根據(jù)這個(gè)需求確定了產(chǎn)生某些數(shù)據(jù),到了后面真正有一個(gè)新的需求來的時(shí)候,又要采集新的數(shù)據(jù),這個(gè)時(shí)候整個(gè)迭代周期就會(huì)慢很多,效率就會(huì)差很多,盡量從源頭抓的數(shù)據(jù)去做好采集。

數(shù)據(jù)建模

有了數(shù)據(jù)之后,就要對(duì)數(shù)據(jù)進(jìn)行加工,不能把原始的數(shù)據(jù)直接報(bào)告給上面的業(yè)務(wù)分析人員,它可能本身是雜亂的,沒有經(jīng)過很好的邏輯的。

這里就牽扯到數(shù)據(jù)建框,首先,提一個(gè)概念就是數(shù)據(jù)模型。許多人可能對(duì)數(shù)據(jù)模型這個(gè)詞產(chǎn)生一種畏懼感,覺得模型這個(gè)東西是什么高深的東西,很復(fù)雜,但其實(shí)這個(gè)事情非常簡單。

屏幕快照 2016-03-11 上午10.28.20

我春節(jié)期間在家干過一件事情,家里的長輩說一定要把家譜這些東西給存檔一下,因?yàn)槲視?huì)電腦,就幫著用電腦去理了一下這些家族的數(shù)據(jù)這些關(guān)系,整個(gè)族譜這個(gè)信息。

我們現(xiàn)實(shí)是一個(gè)個(gè)的人,家譜里面的人,通過一個(gè)樹型的結(jié)構(gòu),還有它們之間數(shù)據(jù)關(guān)系,就能把現(xiàn)實(shí)實(shí)體的東西用幾個(gè)簡單圖給表示出來,這里就是一個(gè)數(shù)據(jù)模型。

數(shù)據(jù)模型就是對(duì)現(xiàn)實(shí)世界的一個(gè)抽象化的數(shù)據(jù)的表示。我們這些創(chuàng)業(yè)公司經(jīng)常是這么一個(gè)情況,我們現(xiàn)在這種業(yè)務(wù),一般前端做一個(gè)請(qǐng)求,然后對(duì)請(qǐng)求經(jīng)過處理,再更新到數(shù)據(jù)庫里面去,數(shù)據(jù)庫里面建了一系列的數(shù)據(jù)表,數(shù)據(jù)表之間都是很多的依賴關(guān)系。

屏幕快照 2016-03-11 上午10.28.41

比如,就像我圖片里面展示的這樣,這些表一個(gè)業(yè)務(wù)項(xiàng)發(fā)展差不多一年以上它可能就牽扯到幾十張甚至上百張數(shù)據(jù)表,然后把這個(gè)表直接提供給業(yè)務(wù)分析人員去使用,理解起來難度是非常大的。

這個(gè)數(shù)據(jù)模型是用于滿足你正常的業(yè)務(wù)運(yùn)轉(zhuǎn),為產(chǎn)品正常的運(yùn)行而建的一個(gè)數(shù)據(jù)模型。但是,它并不是一個(gè)針對(duì)分析人員使用的模型。如果,非要把它用于數(shù)據(jù)分析那就帶來了很多問題。比如:它理解起來非常麻煩。

另外,數(shù)據(jù)分析很依賴表之間的這種格子,比如:某一天我們?yōu)榱颂嵘阅?,?duì)某一表進(jìn)行了拆分,或者加了字段、刪了某個(gè)字短,這個(gè)調(diào)整都會(huì)影響到你分析的邏輯。

屏幕快照 2016-03-11 上午10.28.59

這里,最好要針對(duì)分析的需求對(duì)數(shù)據(jù)重新進(jìn)行解碼,它內(nèi)容可能是一致的,但是我們的組織方式改變了一下。就拿用戶行為這塊數(shù)據(jù)來說,就可以對(duì)它進(jìn)行一個(gè)抽象,然后重新把它作為一個(gè)判斷表。

用戶在產(chǎn)品上進(jìn)行的一系列的操作,比如瀏覽一個(gè)商品,然后誰瀏覽的,什么時(shí)間瀏覽的,他用的什么操作系統(tǒng),用的什么瀏覽器版本,還有他這個(gè)操作看了什么商品,這個(gè)商品的一些屬性是什么,這個(gè)東西都給它進(jìn)行了一個(gè)很好的抽象。這種抽樣的很大的好處很容易理解,看過去一眼就知道這表是什么,對(duì)分析來說也更加方便。

屏幕快照 2016-03-11 上午10.29.24

在數(shù)據(jù)分析方,特別是針對(duì)用戶行為分析方面,目前比較有效的一個(gè)模型就是多維數(shù)據(jù)模型,在線分析處理這個(gè)模型,它里面有這個(gè)關(guān)鍵的概念,一個(gè)是維度,一個(gè)是指標(biāo)。

維度比如城市,然后北京、上海這些一個(gè)維度,維度西面一些屬性,然后操作系統(tǒng),還有IOS、安卓這些就是一些維度,然后維度里面的屬性。

通過維度交叉,就可以看一些指標(biāo)問題,比如用戶量、銷售額,這些就是指標(biāo)。比如,通過這個(gè)模型就可以看來自北京,使用IOS的,他們的整體銷售額是怎么樣的。

這里只是舉了兩個(gè)維度,可能還有很多個(gè)維度??傊ㄟ^維度組合就可以看一些指標(biāo)的數(shù),大家可以回憶一下,大家常用的這些業(yè)務(wù)的數(shù)據(jù)分析需求是不是許多都能通過這種簡單的模式給抽樣出來。

四、數(shù)據(jù)分析方法

接下來看一下互聯(lián)網(wǎng)產(chǎn)品采用的數(shù)據(jù)分析方法。

屏幕快照 2016-03-11 上午10.29.54

對(duì)于互聯(lián)網(wǎng)產(chǎn)品常用的用戶消費(fèi)分析來說,有四種:

  • 第一種是多維事件的分析,分析維度之間的組合、關(guān)系。
  • 第二種是漏斗分析,對(duì)于電商、訂單相關(guān)的這種行為的產(chǎn)品來說非常重要,要看不同的渠道轉(zhuǎn)化這些東西。
  • 第三種留存分析,用戶來了之后我們希望他不斷的來,不斷的進(jìn)行購買,這就是留存。
  • 第四種回訪,回訪是留存的一種特別的形式,可以看他一段時(shí)間內(nèi)訪問的頻次,或者訪問的時(shí)間段的情況

方法1:多維事件分析法

首先來看多維事件的分析,這塊常見的運(yùn)營、產(chǎn)品改進(jìn)這種效果分析。其實(shí),大部分情況都是能用多維事件分析,然后對(duì)它進(jìn)行一個(gè)數(shù)據(jù)上的統(tǒng)計(jì)。

1. 三個(gè)關(guān)鍵概念

屏幕快照 2016-03-11 上午10.30.09

這里面其實(shí)就是由三個(gè)關(guān)鍵的概念,一個(gè)就是事件,一個(gè)是維度,一個(gè)是指標(biāo)組成。

  • 事件就是說任何一個(gè)互聯(lián)網(wǎng)產(chǎn)品,都可以把它抽象成一系列事件,比如針對(duì)電商產(chǎn)品來說,可抽象到提交、訂單、注冊(cè)、收到商品一系列事件用戶行為。
  • 每一個(gè)事件里面都包括一系列屬性。比如,他用操作系統(tǒng)版本是否連wifi;比如,訂單相關(guān)的運(yùn)費(fèi),訂單總價(jià)這些東西,或者用戶的一些職能屬性,這些就是一系列維度。
  • 基于這些維度看一些指標(biāo)的情況。比如,對(duì)于提交訂單來說,可能是他總提交訂單的次數(shù)做成一個(gè)指標(biāo),提交訂單的人數(shù)是一個(gè)指標(biāo),平均的人均次數(shù)這也是一個(gè)指標(biāo);訂單的總和、總價(jià)這些也是一個(gè)指標(biāo),運(yùn)費(fèi)這也是一個(gè)指標(biāo),統(tǒng)計(jì)一個(gè)數(shù)后就能把它抽樣成一個(gè)指標(biāo)。

2. 多維分析的價(jià)值

來看一個(gè)例子,看看多維分析它的價(jià)值。

屏幕快照 2016-03-11 上午10.30.32

比如,對(duì)于訂單支付這個(gè)事件來說,針對(duì)整個(gè)總的成交額這條曲線,按照時(shí)間的曲線會(huì)發(fā)現(xiàn)它一路在下跌。但下跌的時(shí)候,不能眼睜睜的看著它,一定要分析原因。

怎么分析這個(gè)原因呢?常用的方式就是對(duì)維度進(jìn)行一個(gè)拆解,可以按照某些維度進(jìn)行拆分,比如我們按照地域,或者按照渠道,或者按照其他一些方式去拆開,按照年齡段、按照性別去拆開,看這些數(shù)據(jù)到底是不是整體在下跌,還是說某一類數(shù)據(jù)在下跌。

屏幕快照 2016-03-11 上午10.31.02

這是一個(gè)假想的例子——按照支付方式進(jìn)行拆開之后,支付方式有三種,有用支付寶、阿里PAY,或者用微信支付,或者用銀行看內(nèi)的支付這三種方式。

通過數(shù)據(jù)可以看到支付寶、銀行支付基本上是一個(gè)沉穩(wěn)的一個(gè)狀態(tài)。但是,如果看微信支付,會(huì)發(fā)現(xiàn)從最開始最多,一路下跌到非常少,通過這個(gè)分析就知道微信這種支付方式,肯定存在某些問題。

比如:是不是升級(jí)了這個(gè)接口或者微信本身出了什么問題,導(dǎo)致了它量下降下去了?

方法2:漏斗分析

漏斗分析會(huì)看,因?yàn)閿?shù)據(jù),一個(gè)用戶從做第一步操作到后面每一步操作,可能是一個(gè)雜的過程。

屏幕快照 2016-03-11 上午10.31.27

比如,一批用戶先瀏覽了你的首頁,瀏覽首頁之后可能一部分人就直接跑了,還有一部分人可能去點(diǎn)擊到一個(gè)商品里面去,點(diǎn)擊到商品可能又有很多人跑了,接下來可能有一部分人就真的購買了,這其實(shí)就是一個(gè)漏斗。

屏幕快照 2016-03-11 上午10.31.47

通過這個(gè)漏斗,就能分析一步步的轉(zhuǎn)化情況,然后每一步都有流失,可以分析不同的渠道其轉(zhuǎn)化情況如何。比如,打廣告的時(shí)候發(fā)現(xiàn)來自百度的用戶漏斗轉(zhuǎn)化效果好,就可能在廣告投放上就在百度上多投一些。

方法3:留存分析

屏幕快照 2016-03-11 上午10.32.10

比如,搞一個(gè)地推活動(dòng),然后來了一批注冊(cè)用戶,接下來看它的關(guān)鍵行為上面操作的特征,比如當(dāng)天它有操作,第二天有多少人會(huì)關(guān)鍵操作,第N天有多少操作,這就是看它留下來這個(gè)情況。

方法4:回訪分析

屏幕快照 2016-03-11 上午10.32.40

回訪就是看進(jìn)行某個(gè)行為的一些中度特征,如對(duì)于購買黃金這個(gè)行為來說,在一周之內(nèi)至少有一天購買黃金的人有多少人,至少有兩天的有多少人,至少有7天的有多少人,或者說購買多少次數(shù)這么一個(gè)分布,就是回訪回購這方面的分析。

上面說的四種分析結(jié)合起來去使用,對(duì)一個(gè)產(chǎn)品的數(shù)據(jù)支撐、數(shù)據(jù)驅(qū)動(dòng)的這種深度就要比只是看一個(gè)宏觀的訪問量或者活躍用戶數(shù)就要深入很多。

五、運(yùn)營分析實(shí)踐

下面結(jié)合個(gè)人在運(yùn)營和分析方面的實(shí)踐,給大家分享一下。

案例1:UGC產(chǎn)品

屏幕快照 2016-03-11 上午10.34.20

首先,來看UGC產(chǎn)品的數(shù)據(jù)分析的例子。可能會(huì)分析它的訪問量是多少,新增用戶數(shù)是多少,獲得用戶數(shù)多少,發(fā)帖量、減少量。

諸如貼吧、百度知道,還有知乎都屬于這一類的產(chǎn)品。對(duì)于這樣一個(gè)產(chǎn)品,會(huì)有很多數(shù)據(jù)指標(biāo),可以從某一個(gè)角度去觀察這個(gè)產(chǎn)品的情況。那么,問題就來了——這么多的指標(biāo),到底要關(guān)注什么?不同的階段應(yīng)該關(guān)注什么指標(biāo)?這里,就牽扯到一個(gè)本身指標(biāo)的處理,還有關(guān)鍵指標(biāo)的問題。

案例2:百度知道

屏幕快照 2016-03-11 上午10.34.40

2007年我加入百度知道之后,開始剛進(jìn)去就寫東西了。作為RB,我每天也收到一系列報(bào)表郵件,這些報(bào)表里面有很多統(tǒng)計(jì)的一些數(shù)據(jù)。比如,百度知道的訪問量、減少量、IP數(shù)、申請(qǐng)數(shù)、提問量、回答量,設(shè)置追加答案,答案的數(shù)量,這一系列指標(biāo)。當(dāng)時(shí),看的其實(shí)感覺很反感。

我在思考:這么多的指標(biāo),不能說這也提高,那也提高吧?每個(gè)階段肯定要思考哪個(gè)事最關(guān)鍵的,重點(diǎn)要提高哪些指標(biāo)。開始的時(shí)候其實(shí)是沒有任何區(qū)分的,不知道什么是重要、什么是不重要。

后來,慢慢有一些感觸和認(rèn)識(shí),就發(fā)現(xiàn)其實(shí)對(duì)于訪問量、減少量這些相關(guān)的。因?yàn)榘俣戎佬枰髁慷际莵碜杂诖笏阉?,把它展現(xiàn)做一下調(diào)整或者引導(dǎo),對(duì)量的影響非常大。雖然,跟百度知道本身做的好壞也有直接關(guān)系,但是它很受渠道的影響——大搜索這個(gè)渠道的影響。

提問量開始的時(shí)候,我認(rèn)為非常重要,怎么提升提問量,那么整個(gè)百度知道平臺(tái)的這個(gè)問題就多了。提升回答量,讓這些問題得到回答,高質(zhì)量的內(nèi)容就非常多了,又提升提問量,而后再提升回答量——其實(shí)等于是兩類人了。而怎么把它做上去,我當(dāng)時(shí)有一些困惑,有一些矛盾,到底什么東西是最關(guān)鍵的。

有一次產(chǎn)品會(huì),每一個(gè)季度都有一個(gè)產(chǎn)品會(huì)。那個(gè)時(shí)候,整個(gè)部門的產(chǎn)品負(fù)責(zé)人是孫云豐,可能在百度待過的或者說對(duì)百度產(chǎn)品體系有了解的都會(huì)知道這么一個(gè)人,非常厲害的一個(gè)產(chǎn)品經(jīng)理。我當(dāng)時(shí)就問了他這個(gè)問題,我對(duì)提問量、回答量都要提升這個(gè)困惑。

屏幕快照 2016-03-11 上午10.35.04

他就說了一點(diǎn),其實(shí)提問量不是一個(gè)關(guān)鍵的問題,為什么?我們可以通過大搜索去找,如果一個(gè)用戶在大搜索里面進(jìn)行搜索,發(fā)現(xiàn)這個(gè)搜索沒有一個(gè)好的答案,那就可以引導(dǎo)他進(jìn)行一個(gè)提問,這樣其實(shí)這個(gè)提問量就可以迅速提升上去。

我一聽一下就解決了這個(gè)困惑,最關(guān)鍵的就是一個(gè)回答量,我所做的事情其實(shí)怎么去提升回答量就可以了。

屏幕快照 2016-03-11 上午10.35.37

這里面把百度知道這個(gè)產(chǎn)品抽樣成了最關(guān)鍵的一個(gè)提升——那就是如何提升回答量,在這個(gè)問題上當(dāng)時(shí)做了一個(gè)事情就是進(jìn)行問題推薦。

百度知道有一批活躍用戶,這些用戶就喜歡回答問題。于是,我們思考:能不能把一些他們可以回答問題推薦給他們,讓他們回答各種各樣的問題——這個(gè)怎么去做呢?

這個(gè)思路也很簡單,現(xiàn)在個(gè)性化推薦都是比較正常的,大家默認(rèn)知道這么一回事。但是,2008年做推薦這個(gè)事情其實(shí)還是比較領(lǐng)先的,從我了解的情況來看,國內(nèi)的是2010年個(gè)性化推薦引擎這塊技術(shù)火了,但后來有些公司做這方面后來都倒掉了。

屏幕快照 2016-03-11 上午10.35.56

實(shí)現(xiàn)策略是非常簡單的,我們就看一個(gè)用戶歷史的回答記錄,看他回答的這些問題開頭是什么、內(nèi)容是什么。

由于百度很擅長做自然語言的處理,基于這些,通過這里面的抽取用戶的興趣詞,感興趣的話題,然后把待解的問題,與該問題相關(guān)話題的相關(guān)用戶進(jìn)行一個(gè)匹配,匹配上了就把這個(gè)問題推薦給這個(gè)用戶。

當(dāng)時(shí),我們做的一個(gè)事情就是:把推薦幾個(gè)月有過回答量比較高的用戶進(jìn)行一個(gè)抽取,對(duì)他們訓(xùn)練一個(gè)模式——就是對(duì)每個(gè)用戶有一系列的話題興趣點(diǎn),然后每個(gè)點(diǎn)都有一個(gè)程度,這就是一個(gè)用戶的模型項(xiàng)量,就是一個(gè)興趣項(xiàng)量,當(dāng)時(shí)抽了35萬個(gè)用戶。

這個(gè)效果是這樣的,現(xiàn)在我已經(jīng)找了我們當(dāng)年做的圖片,整個(gè)樣式其實(shí)這是我前一段時(shí)間截的圖,大體類似。比如,我對(duì)數(shù)據(jù)分析相關(guān)的問題回答了不少,它就會(huì)給我推薦數(shù)據(jù)分析相關(guān)的問題。

我們這個(gè)功能差不多做了有三個(gè)月,把它推上線我們其實(shí)是滿懷期待的,結(jié)果效果如何呢?

屏幕快照 2016-03-11 上午10.36.15

上線之后很悲劇,我們發(fā)現(xiàn)總的回答量沒有變化。于是,我們又進(jìn)一步分析了一下原因。當(dāng)時(shí),最開始這些核心用戶在回答問題的時(shí)候都是找分類頁。比如:電腦這個(gè)分類,然后看電腦相關(guān)的問題,有興趣的就回答。

后來,我們做了一個(gè)體驗(yàn):在個(gè)人中心里面加了一個(gè)猜他喜歡的那個(gè)問題,然后推給他,結(jié)果用戶從分類頁回答這個(gè)問題轉(zhuǎn)到了個(gè)人中心。但是,平均一個(gè)人回答量并沒有變化,當(dāng)時(shí)做的這些統(tǒng)計(jì),這些核心用戶就回答六個(gè)問題,超過六個(gè)他就沒動(dòng)力回答了。

我們事后分析原因,有一個(gè)原因他可能本身的回答量就是這么一條線,誰能天天在哪里源源不斷的回復(fù)問題。還有一個(gè)同事就分析當(dāng)時(shí)讓他一個(gè)痛苦的地方,因?yàn)槲覀兪窃丛床粩嗟赝扑],然后他就發(fā)現(xiàn)回答幾個(gè)之后還有幾個(gè),回答了幾次就感覺要崩潰了,就不想再這么回答下去了。

其實(shí),年前時(shí)知乎在問題推薦上也做了不少功夫,做了許多測試。年前有一段時(shí)間,它天天給我推一些新的問題,然后我去回答。后來,發(fā)現(xiàn)推的太多了,就沒回答的動(dòng)力了。

針對(duì)這些核心用戶會(huì)發(fā)現(xiàn)從他們上面榨取不了新的價(jià)值了。于是,我們調(diào)轉(zhuǎn)了矛頭,從另一個(gè)角度——能不能去廣撒網(wǎng),吸引更多的用戶來回答問題,這個(gè)做的就是一個(gè)庫里推薦。

屏幕快照 2016-03-11 上午10.36.36

訪問百度的時(shí)候,百度不管用戶是否登錄,會(huì)在用戶的庫里面去設(shè)置一個(gè)用戶標(biāo)識(shí)。通過這個(gè)標(biāo)識(shí)能夠?qū)@個(gè)用戶進(jìn)行一個(gè)跟蹤,雖然不知道用戶是誰,但是,起碼能把同一個(gè)用戶這個(gè)行為給它檢起來。這樣,就可以基于他歷史的檢索,各種搜索詞,還有他流量的各種頁面的記錄,然后去提取一些證據(jù),然后給這些庫題建一個(gè)模型。

這樣有一個(gè)好處,能夠覆蓋的用戶量非常大,前面講的核心用戶推薦只覆蓋了只有35萬的核心用戶,但是通過這種方式可以覆蓋幾億百度用戶,每一次用戶登錄之后或者訪問百度知道之后我們就基于他本身興趣然后走一次檢索,在解決問題里面檢索一下跟他匹配的就給他推薦出來。

屏幕快照 2016-03-11 上午10.36.56

比如前一段,我自己在沒有登錄的時(shí)候,其實(shí)我是會(huì)看馬爾克斯。我比較喜歡馬爾克斯的作品,我當(dāng)時(shí)搜了馬爾克斯的一些相關(guān)的內(nèi)容。它就抽取出來我對(duì)馬爾克斯什么感興趣,就給我推薦了馬爾克斯相關(guān)的問題,可能我知道我不可能就會(huì)點(diǎn)進(jìn)去回答。

這個(gè)功能上了之后效果還是很不錯(cuò)的,讓整體的回答量提升了7.5%。要知道,百度知道產(chǎn)品從2005年開始做,做到2007年、2008年的時(shí)間這個(gè)產(chǎn)品已經(jīng)很成熟了。在一些關(guān)鍵指標(biāo)進(jìn)行大的提升還是非常有挑戰(zhàn)的,這種情況下我們通過這種方式提升了7.5%的回答量,感覺還是比較有成就感,我當(dāng)時(shí)也因?yàn)檫@個(gè)事情得了季度之星。

案例3:流失用戶召回

這種形式可能對(duì)其他產(chǎn)品就很有效,但是對(duì)我們這個(gè)產(chǎn)品來說,因?yàn)槲覀冞@是一個(gè)相對(duì)來說目標(biāo)比較明確并且比較小眾一點(diǎn)的差別,所以這個(gè)投放的效果可能就沒那么明顯。

在今年元旦的時(shí)候,因?yàn)橹吧暾?qǐng)?jiān)囉梦覀兡莻€(gè)產(chǎn)品已經(jīng)有很多人,但是這里面有一萬人我們給他發(fā)了帳號(hào)他也并沒有回來,我們過年給大家拜拜年,然后去匯報(bào)一下進(jìn)展看能不能把他們撈過來一部分。

屏幕快照 2016-03-11 上午11.01.41

這是元旦的時(shí)候我們產(chǎn)品的整體用戶情況,到了元旦為止,9月25號(hào)發(fā)布差不多兩三個(gè)月時(shí)間,那個(gè)時(shí)候差不多有1490個(gè)人申請(qǐng)?jiān)囉昧宋覀冞@個(gè)產(chǎn)品。但是,真正試用的有724個(gè),差不多有一半,另外一半就跑了,就流失了。

我們就想把這部分人抽出來給他們進(jìn)行一個(gè)招回活動(dòng),這里面流失用戶我們就可以把列表導(dǎo)出來,這是我們自己的產(chǎn)品就有這樣的功能。有人可能疑惑我們?cè)趺茨玫接脩舻倪@些信息呢?

屏幕快照 2016-03-11 上午11.02.56

這些不至于添加,因?yàn)槲覀兩暾?qǐng)?jiān)囉玫臅r(shí)候就讓他填一下姓名、聯(lián)系方式,還有他的公司這些信息。對(duì)于填郵箱的我們就給發(fā)郵件的,對(duì)于發(fā)手機(jī)號(hào)的我們就給他發(fā)短信,我們分析這兩種渠道帶來的效果。

屏幕快照 2016-03-11 上午11.03.42

先說總體,總體我們發(fā)了716個(gè)人,這里面比前面少了一點(diǎn),我把一些不靠譜的這些信息人工給它干掉了。接下來,看看真正有35個(gè)人去體驗(yàn)了這個(gè)產(chǎn)品,然后35個(gè)人里面有4個(gè)人申請(qǐng)接入數(shù)據(jù)。

因?yàn)槲覀冊(cè)诋a(chǎn)品上面做了一個(gè)小的改進(jìn),在測試環(huán)境上面,對(duì)于那些測試環(huán)境本身是一些數(shù)據(jù)他玩一玩,玩了可能感興趣之后就會(huì)試一下自己的真實(shí)數(shù)據(jù)。這個(gè)時(shí)候,我們上來有一個(gè)鏈接引導(dǎo)他們?nèi)ド暾?qǐng)接入自己的數(shù)據(jù),走到這一步之后就更可能轉(zhuǎn)化成我們的正式客戶。

這兩種方式轉(zhuǎn)化效果我們其實(shí)也很關(guān)心,招回的效果怎么樣,我們看下面用紅框表示出來,郵件發(fā)了394封。最終有32個(gè)人真正過來試用了,電話手機(jī)號(hào)322封,跟郵件差不多,但只有3個(gè)過來,也就是說兩種效果差了8倍。

這其實(shí)也提醒大家,短信這種方式可能許多人看短信的比較少。當(dāng)然,另一方面跟我們自己產(chǎn)品特征有關(guān)系,我們這個(gè)產(chǎn)品是一個(gè)PC上用起來更方便的一個(gè)產(chǎn)品。許多人可能在手機(jī)上看到這個(gè)鏈接也不方便點(diǎn)開,點(diǎn)開之后輸入帳號(hào)也麻煩一點(diǎn)。所以,導(dǎo)致這個(gè)效果比較差。

 

作者:桑文鋒,Sensors Data創(chuàng)始人&CEO,前百度大數(shù)據(jù)部技術(shù)經(jīng)理。

本文由 @桑文鋒 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理?,未經(jīng)許可,禁止轉(zhuǎn)載。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 對(duì)哦,我也想學(xué)習(xí)下數(shù)據(jù)分析這塊,圖中的數(shù)據(jù)分析是自己的后臺(tái)還是?

    來自廣東 回復(fù)
  2. 謝謝作者的分享,很實(shí)用!

    來自江蘇 回復(fù)
  3. 謝謝 很有用,不過 數(shù)據(jù)分析的demo是在自己的后臺(tái)還是。。。。想學(xué)習(xí)一下數(shù)據(jù)分析這塊

    來自廣東 回復(fù)
  4. 謝謝作者的分享,很實(shí)用!

    來自廣東 回復(fù)