DNA級用戶畫像:直達用戶內心

2 評論 17921 瀏覽 166 收藏 18 分鐘

本文分享點是通過用戶熱詞反推用戶特征,希望對用戶研究、商業分析、數據分析的同事有幫助。

一、什么是用戶畫像?為何要做用戶畫像?

在進騰訊前,聽說互聯網產品都喜歡做用戶畫像調研,但成功應用沒幾個。進公司后看了幾份用戶畫像報告,基本點面都覆蓋了,數據和分析也沒什么偏差,但不知道解決哪些問題。所以這里我先探討兩個問題,什么是用戶畫像,為何要做用戶畫像。

剛入調研的行業時候,覺得調研是無所不能,后來覺得調研無所能。其實關鍵是我們想清楚兩個問題:一是我們解決什么問題,二是用戶能回答哪些問題。

自從進了騰訊,才大概了解到一個產品工作流程:

商業分析->產品交互DEMO->供應商BD->產品設計->前后臺開發->市場推廣->用戶運營->售后客服->商業分析(重頭開始,迭代2)

可以看到,我們常面對三類問題:產品設計、市場和技術。針對這三類問題,用戶能回答哪些?答案是顯然的:

  • 技術問題:用戶無法回答。
  • 產品設計:產品需求問題,用戶僅能意識到淺層問題,但不思考需求背后邏輯、需求主次關系等,故他們的回答僅能參考。所以說產品設計不需要看用戶調查。交互設計問題,我們可看用戶能否完成主要任務,評估交互操作是否符合用戶基本習慣,如信息主次是否分明、色彩色塊引導是否合理、圖標是否存在認知混亂、邏輯結構是否易于記憶??梢?,用研在產品設計方面有所幫忙,但有一定的局限性。
  • 市場問題,向哪些用戶推廣,在哪些渠道推廣,推廣什么。這些問題都可以通過用研得到結果,可見用戶研究對市場推廣有較大幫助。

回到剛才第一個問題,什么是用戶畫像?這個是什么不重要,重要的是我們要解決什么問題。一般而言,用戶畫像是解決市場推廣問題,較少解決產品設計問題的調研報告。

二、做用戶畫像的前提條件:其實我們早已有解決方案!

作為一個用研同事,我們經常面對兩個問題:一是調研報告出來后就涼在那里,似乎沒起什么作用;二是產品同事經常報怨,不知道用戶有哪些需求,如何解決目前困難。

如前面談及,用戶研究不是無所不能,它僅是提高產品/市場工作效率的工具之一,但不能代替各同事專業技能?;蛟S有人說,這是你們用研沒有做好做得深入,沒有突破。

實際上,讓用研同事入門產品設計或品牌推廣專業技能,大概需要半年時間,然后才能提出一些專業解決方案。但沒人等得起半年,最多等2周,所以調研報告解決不了產品經理的問題。

后來,作為用研,我調入到產品組,再后來調入品牌組,每個組呆了半年,自己切入產品設計和品牌推廣具體工作,才知道大概需要是哪些東西,如何解決。

但假如大家沒有這個條件,可讓產品經理先說說潛在幾個解決方案,然后每個方案需要獲取哪些數據來驗證是否可行。這樣用研項目才會有價值。用戶研究再深,也不能代替設計師的活,畫出蒙羅麗莎。

三、我們為何要做用戶畫像?

在品牌組常被問到一個問題:用戶具有哪些特征,他們喜歡什么東西?當這個問題經常被提問,就有覺得有解決的必要,其實不是,是我們看到這個答案如何應用:

  1. 我們希望根據用戶心理訴求,策劃一些有共鳴的話題/活動,以便SNS傳播分享。
  2. 我們希望根據用戶品牌喜好,尋找一些異業品牌、娛樂節目、明星偶像合作,用曝光資源換取優質品牌合作,提升會員的美譽度。
  3. 我們希望根據用戶生活形態,在線下渠道/商家推廣會員品牌,投放更加精準。

從上述可以看到,我們回答“用戶喜歡什么東西”是有應用價值,因此我們清楚我們需要收集哪些數據,調研哪些問題。

四、真實世界與用戶畫像的距離

(1)問卷調查法

傳統用戶畫像調研,基本都是通過用戶訪談+問卷調查完成。在報告綜述的時候,基本都是采取調查數據來總結歸納。但后來我們多少發現,無論我們問了多少個問題,用戶畫像還是不清晰的。

例如,QQ會員用戶喜歡看電影,比非QQ會員用戶高出10%,但我們不能以是否喜歡看電影作為QQ會員用戶核心特征。因為在看電影這件事情上,也有很多非QQ會員也喜歡。

如此情況經常發生,是否喜歡逛街、購物、旅游、看書、聽音樂、玩游戲等等,您會發現我們很難用幾百個問卷調查指標來將QQ會員用戶生活形態描繪出來,因為95%指標都缺乏顯性差異。這就是現實世界:mess。假如用戶問卷調查數據描繪一群人的生活形態,就像下圖的感覺,模糊大概知道是兩個人,但有點看不清。

若回想為何看不清用戶形態,總結原因有兩個:

①筆觸太粗:即我們提問指標不夠多,問卷調查一般可覆蓋用戶生活形態的100個指標,但在這100個指標中找出有效指標,估計不到10個。

②顏色太少:很多時候我們僅能問用戶是否喜歡某件事情(2選項),或根據“非常喜歡”、“喜歡”、”一般“、”不喜歡“、”非常不喜歡“(5選項),甚至評分制(10選項),用戶根據自己感知打分,敏感度還是有限的。一般情況下,像評分制,用戶根據自己感覺打分,一般僅能區分5-6級別差異。但現實世界是,在一件事情態度上,可以有幾千種態度差異,后面會講述。

(2)外部調查數據與內部后臺數據結合法

后來我們嘗試將用戶后臺數據全部提取,大約有300-500個指標。但受信息安全限制,我們僅能拿到自己和合作部門數據,而電商數據、豆瓣閱讀喜歡的數據,基本都是缺乏的。

不過有了后臺數據,用戶畫像是稍微清晰點。這里清晰并不單是數據指標多,而是緯度更多。因為這300個指標中,經過因子分析,我們發現用戶盡在10個緯度上是有差異。意思是說,這300個指標可整合為10個指標,來描述用戶差異,其余大部分指標都是基于這10個指標演變而成。下面可以概括有哪些指標:

  • 年齡相關:年齡、學歷、職業、收入強相關
  • 活躍相關:登陸數、關系鏈數、C2C消息數、群數、群消息數強相關
  • 付費習慣相關:各鉆開通紀錄、財付通充值消費等強相關
  • 等級相關:Q齡、現有等級、每天加速
  • ……

經過更多緯度,我們可將用戶畫像描寫得更細,如下圖?,F在大家還是猜得他們是誰?相信很多人會猜到是一個成年男人和小孩,但不太確定他們特質。這就是將外部調研數據和內部后臺數據結合輸出的用戶畫像報告。

(3)文本挖掘法

經過后臺數據補充,我們可以發現更多有區隔性的特征指標,但用戶內心訴求還是不太清楚。在這個時候,我們跟微趨勢團隊探討如何利用文本挖掘技術,來還原用戶畫像。

抽象地理解,我們想讓每個點不僅是黑白兩個顏色,而是有6萬4千多個的真彩色。轉換成操作方法,就是在一個事情態度上,我們不希望僅檢測用戶用戶是否喜歡,而是檢測到他喜歡哪些東西。但這里有幾個挑戰點:

  • 豆瓣、電商、大眾點評有詳細用戶偏好數據,不單止知道用戶喜歡閱讀玄幻小說,還知道他喜歡看那幾本,如70后,80后,90后喜歡言情小說是不一樣的。而我們是缺乏這些生活類數據。
  • 騰訊優勢在于SNS,用戶數據就是UGC內容。那么,我們能否拿UGC的內容,分析用戶常提及哪些關鍵字,以此判斷用戶的特征?

于是,我整理了兩個樣本,分別是100w會員用戶和100w非會員用戶,提取最近一個月在騰訊微博所發布文本內容,用微趨勢系統做文本挖掘,看看用戶常提及那些詞。

操作流程是順利的,但微博文本中存在大量廣告雜質,幾乎占據整體數據量50%。即使經過數據篩選清洗,用戶高頻次的詞往往集中在兩塊:

生活用詞:如知道,沒有,可以,喜歡,開心,幸福,流淚,需要,覺得,希望等。這些詞是日常用,故提及率很高,但缺乏具體的含義。

最近流行詞(又稱新詞):如特么,光棍節,牛逼,期中考試,黃鉆,年費,呃呃呃呃呃,微博,坑爹,洗個澡。這些新詞是基于對比原有詞庫,機器發現最近出現很多,但受節假日、活動運營、廣告等因素嚴重影響,并非用戶原始想法,故有效性也很低。

看來,在無限定主題情況下,用機器挖掘高頻次熱詞來歸納用戶特征是困難,微趨勢文本挖掘技術更適合在特定關鍵詞下一級關聯分析,如QQ會員用戶經常提及斗戰神,微趨勢可以分析用戶在提及斗戰神時候,關聯提及哪些熱詞,那么我們就知道他們對斗戰神的想法是什么。這非常適合做專題分析和傳播。

(4)熱詞反查法

假如在沒主題或關鍵字限制情況下,機器挖熱詞是困難的,那么我們能否反過來,拿我們想測試熱詞列表,反過來計算每個詞被提及的頻次?于是,我們根據百度風云榜(http://top.baidu.com/)整理一份熱詞表,共有2300個當下熱詞,來分析用戶提及哪些詞語/事物更多,以此作為用戶畫像標簽。

我們計算會員用戶不同年齡的提及熱詞的差異,找出不同年齡會員用戶關注哪些類目(如科幻片、喜劇片、劇情片),還算出不同年齡用戶分別喜歡看哪些不同的科幻片(如13-15歲喜歡看雷神2,23-29歲喜歡看速度與激情)。通過這次用戶喜好數據,我們就得出QQ會員用戶畫像及心理訴求。

到此,我們可以看到在某一個緯度上面,用戶有千萬種態度。用戶畫像也更加colorful和清晰。好吧,看得出是林志穎和kimi:)

回顧我們日常語言內容,會受到兩個因素影響:

①社會流行:如最近流行電影、電視劇、段子、口頭禪、網絡新詞等等。這些語言不管什么人都喜歡使用,成了社會流行。所以,我們日常生活中會提及很多社會流行事物。這些詞語的特點是提及率高,用戶間無差異。

②個人因素:70后和90后的說話詞語是不一樣,這是受年齡因素影響;屌絲和白富美說話內容是不一樣,這是受經濟因素影響。所以,我們可根據某群體的高頻提及關鍵字,來作為這群用戶的標簽。

所以,若要找出不同年齡的QQ會員用戶差異,通過“該年齡會員用戶提及該詞頻次/會員用戶提及該詞頻次”公式即可實現。

在統計關鍵字提及頻次方面,有以下注意事項:

①關鍵詞太長:用戶會較少提及,如饑餓游戲2星火燎原,很多人會在微博上輸入全稱,故我們將關鍵字縮短,改為饑餓游戲2。

②關鍵詞過于常見:如最近一部電視劇叫《晴天》。用戶在微博上會因日常生活常提及這個詞,故我們得剔除,不納入分析。

③品牌詞:微博上廣告內容占總體信息量50%,拿品牌詞統計關鍵字提及頻次難以客觀。

最后,利用熱詞表的提及頻次來描述用戶畫像,他的優點和缺點在于同一地方。優點是,我們可以拿不同項目類型熱詞表,來查看用戶在某個類目上的態度,如航空公司名稱、牙膏牌子。只要熱詞越獨特,其統計經準確性越高。只要有一批用戶微博文本內容,我們就可以擴展很多類目描繪。但它的缺點是一致的,就是我們得整理出一份全面的熱詞表,且每個熱詞都有自己的獨特性和當下流行性,不能像企鵝、老虎那樣通用。

四、未來是大數據?

剛才提及,用戶淘寶的購物數據、豆瓣電影/閱讀數據、阿瑪遜和當當的書單、百度關鍵詞,用這些數據來描繪用戶畫像會更加清晰。原因是他們的數據更加精準,是用戶喜好、搜索、購買行為數據,故百度、阿瑪遜和豆瓣推薦一般都很精準。

其實,在大數據這個詞發明之前,統計學、數據挖掘學都發展很多年。以前我們會用大量數據來做關聯分析(如買啤酒的人傾向買紙尿布),或做聚類分析(如開通QQ會員有4個細分市場)。所以大數據并不是什么新鮮的事情。只是回到我們第一個問題,我們需要解決問題,只是用戶畫像,而不是預估用戶下一次購買的商品。所以我們的數據精度就沒有那么吹毛求疵。

當然,我們自身也沒這塊數據,也是不足。其實,說這段話的意思是,做調研,做什么事情,可以多嘗試,但有時候得回過頭來看,我們的問題或目標是什么,而方法招式都是輔助的。

最后,POST一下照片原圖,看看他們的帥照,哈哈。

注:文中圖片均來自網絡

 

作者:鄔嘉文,微信高級運營

 

本文由 @鄔嘉文 原創發布于人人都是產品經理。未經許可,禁止轉載。

題圖來自unsplash,基于CC0協議

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 寫得很用心。學習了。
    PS:用那個照片逐步清晰的展示,太棒了1

    來自廣東 回復