分析了130W字的數據,我知道了用戶在想什么
本文作者將介紹一種通過分析用戶產生的內容了解用戶最近關注的內容,最終幫助改善產品的方法。
網上流傳著張小龍的對于喬老爺的一段評價:
喬布斯最厲害的地方是什么?他說喬布斯1秒鐘就能變成白癡,這是他最厲害的地方。那馬化騰呢?他大概需要5秒鐘。而我差不多需要10秒鐘。
這里的“白癡”并非字面意思,而是指產品經理在使用產品,構思產品功能的時候,能拋棄掉自己固有的思維身份,用同理心將自己轉變為一個產品的典型用戶,站在用戶的角度去思考問題,而且能夠在多種不同的用戶角色之間進行切換。
外人看來好似十分簡單,然而真正有過產品工作經驗的人都知道,要拋棄掉自己過往的思維習慣,將自己轉化為一個用戶是多么的困難!
更多的時候我們通過場景分析,來假設自己是產品在某個場景下的特定用戶,或通過用戶畫像來使得用戶輪廓清晰起來,但也很難做到短時間內將自己轉化為一個用戶,真正以用戶的思維去體驗和思考產品。
“白癡”不易,但用戶在想什么還是要知道?。?/b>
怎么辦!?
How to do?
常見了解用戶的方法有用戶調研,用戶訪談,用戶研究等等
除此之外,常見的還有一種——數據分析,通過數據分析來揣摩用戶的心里,猜測用戶的需求。
本文要介紹的數據分析和提前在功能上線前埋點,再分析埋點數據來輔助產品決策有所不同。
這類的數據通常是用戶產生的內容,沒辦法直接獲取可用的量化數據,特別有幾十萬的文本內容數據的時候,面對一大段一大段的文字,根本無從下手。
而僅僅分析內容的平均字數顯然意義不大,針對內容本身的分析才更有價值。
下面介紹一種通過分析用戶產生的內容了解用戶最近關注的內容,最終幫助改善產品的方法。
三步走:
- 收集用戶的內容數據
- 提取內容關鍵詞
- 分析關鍵詞,運用于產品
第一步:收集用戶的內容數據
首先,第一步,收集用戶數據,但用戶哪里來呢?
既然最終是為了改善產品,從群眾中來,到群眾中去的思路肯定是對的,作為醫療行業的產品經理,舉幾個醫療行業的例子。
1. 點評數據
有產品的銷售可能產生點評,這里的產品不是指單某一款app或商品,而是引用了經濟學中對于產品的定義。
產品是指能夠供給市場,被人們使用和消費,并能滿足人們某種需求的任何東西,包括有形的物品、無形的服務、組織、觀念或它們的組合。
醫療行業中醫生為病人提供的線下診療服務,線上咨詢服務,私人醫生服務等等就是一系列的產品。(這里沒有貶低醫療從業人員的意思,僅僅是從字面意義上進行解釋)
當用戶使用完這類產品的時候,會對產品進行評價,例如線上掛號,線下診療后對醫生的態度,診療效果進行評價,供其他用戶進行參考。
這類點評內容數據可以供其他用戶在購買該產品前能有參考的憑據,同時產品人員可以利用點評的好評中評差評等數值的數據來優化列表的排序,讓更多優質的醫生得到曝光。
2. 咨詢數據
方才提及的醫療行業的產品中,線上咨詢服務不僅僅會產生點評的內容數據,還會產生真實的醫生和患者之間一對一的交流的內容數據。
這些內容數據在一些較大的互聯網醫療公司的產品中會通過一定的隱私處理后對公眾開放,例如在PC端百度搜索“喉嚨痛吃什么好”會出來非常多相關的咨詢記錄,包括39健康網,快速問醫生等知名醫療網站的數據。
這類咨詢內容的記錄能幫助一些遇到相同問題的用戶更快的解答自己的疑惑,提高產品內容的豐富度,增加用戶粘性。
另一方面,公開這類數據讓百度,360等搜索引擎的爬蟲抓取,有助于提高網站的權重,在用戶搜索相關內容的時候更容易出現在靠前的結果,相當于給平臺新增了流量來源。
3. 社區醫患雙方的討論數據
醫療行業的社區也會產生內容數據,患者和患者針對某個疾病進行討論或分享自己的治病經歷,醫生和醫生針對某些疑難雜癥進行討論,醫生給患者進行科普的健教類文章而引起的醫患雙方的互動等等。
例如在PC端,糖尿病垂直社區的“甜蜜家園”以及微醫的“醫言堂”等,雖然一直對微醫的“醫言堂”模式抱有懷疑的態度,但不可否認,醫患雙方也是會產生一些社區討論的內容數據。
如何獲取數據?
類似上述這類的內容型數據,該如何獲?。?/p>
最簡單直接的方法就是找研發哥哥直接導數據,或提個后臺需求,自己導出到Excel表格查看。
但有些時候,自己的產品本身數據量不大或沒有數據,或本身沒有后臺且只是想導出小部分進行分析怎么辦?
那就用“爬蟲”唄,自家產品沒有數據,就去爬競品的數據;自家有但不好意思老是麻煩開發,那自己爬一些需要的數據分析。
作為產品經理,本身也不會寫爬蟲代碼,怎么辦?
這里介紹一款軟件——“八爪魚采集器”,即使不會寫代碼,也能快速的獲取自己想要的數據!(這軟件也是平時沒事逛簡書,在龍瀟Shana的文章中發現的,強烈安利)
通過八爪魚和一些公開數據,我們就能獲取到針對單個疾病的咨詢內容的數據,這樣我們就能分析用戶在某類疾病下普遍會去咨詢醫生的內容是什么。
再舉個栗子,每周周五的時候,經常對著咨詢數據的周報發愣——這周數據為何變動怎么大?大漲或大跌了,發生了什么事情??
這時候通過八爪魚去爬一些異常波動科室最近2-3天的數據,或指定某天波動特別明顯的數據,這樣就能知道用戶在這段異常波動期間哪些咨詢內容成為了熱點?例如流感在咨詢的內容中被提及的次數多了,我們就能知道最近流感高峰期來了。
第二步:提取內容關鍵詞
回顧下我們的三個步驟:
- 收集用戶的內容數據
- 提取內容關鍵詞
- 分析關鍵詞,運用于產品
在第一步的收集用戶內容數據中,我通過采集數據的軟件收集了用戶在某天的咨詢問題,共15859條。
通過第一步抓取用戶的數據,成功獲得
《帶有大量文本內容的數據表格》 X1
僅將其中的咨詢內容單獨拎出,就已經有130W字的內容數據。
但是這些內容數據長短不一且數據量并不小,問的問題也不盡相同,例如:
- “片子是術前的還是術后復查的。術前膝關節是什么癥狀?目前膝外側是痛還是腫?偶發的還是一直持續的?”
- “謝謝主任的講解,那到底現在能不能做手術呢?畢竟是腫瘤也不能拖?!?/li>
- “孩子年齡很小,夜里踢被子很容易胃部受涼而出現上述癥狀!建議多喝白開水、、少吃多餐、肚臍貼,必要時去醫院看看”
如果僅僅針對一個句子一個句子進行分析,不單沒法量化,而且需要花費大量的時間,咋辦?
一句一句分析的辦法肯定行不通,這時候就要祭出提取關鍵詞大法了。
什么是關鍵詞?
通過關鍵詞提取軟件,將上述的大段文本切成不同的詞匯,再找出關鍵詞,將關鍵詞按照詞頻和權重進行排序,就知道哪些詞匯是用戶提及最多,最重要的。
這里可能要問,什么是關鍵詞?
高中時候我們都作過閱讀理解,關鍵詞就是在一篇閱讀理解中反復出現或比較重要的詞匯。
這里我們有兩個概念:
- 詞頻,用來描述出現的次數;
- 權重,用來表示這個詞匯的重要程度。
例如“片子是術前的還是術后復查的。術前膝關節是什么癥狀?目前膝外側是痛還是腫?偶發的還是一直持續的?”,切詞之后就變成“片子,是,術前,還是,術后,復查…”
“術前”的詞頻為2,因為它出現了兩次,但是“術前”詞匯的權重呢?這里無法直接給出,但是在統計學上,越常詞匯的權重就越小,例如“我,你,他”,同理,不常見的詞匯,例如“腫瘤”,權重就會較大。
不同詞匯在不同的語境下的重要程度是不同的,假如一篇專門講述手術的文章,和一篇專門講述糖尿病的文章都有提及“糖尿病”這個詞匯,詞匯“糖尿病”明顯對于講述糖尿病的文章是更重要的,但是詞匯“糖尿病”在不同的文章中的權重又相同。
這時候如何突出關鍵詞“糖尿病”詞匯對于糖尿病文章的重要性呢?
為了思考這個問題,逛了逛知乎,在上面看到了一種關鍵詞提取的理論——TF-IDF法
TF-IDF=詞頻(TF)*逆文檔頻率(IDF)
原理這里不展開講,我們可以簡單粗暴的理解為一個關鍵詞的重要程度可以這樣判斷
關鍵詞重要程度=詞頻*權重
提取關鍵詞的方法理論比較復雜,但我們不需要了解背后的機制,使用一些切詞軟件就能幫我們提取出大段內容的關鍵詞,而且還含有詞頻和權重(至于這些切詞軟件是否使用的是TD-IDF的理論不得而知,暫且認為是吧。)
這樣,通過切詞軟件,我們終于從一堆長長的文本中提取出了關鍵詞。
得到 《帶有詞頻及權重的關鍵詞表格》 X1
導出Excel表格將關鍵詞的詞頻和權重分數相乘再倒序排列,這樣我們能知道哪些詞匯是出現頻率高且權重大的關鍵詞。
第三步:分析關鍵詞,運用于產品
經過前面兩步,我們手中已經有了
- 《帶有大量文本內容的數據表格》 X1
- 《帶有詞頻及權重的關鍵詞表格》 X1
對著這兩個表格,我們能做些什么?
先說個題外話,前陣子有位仁兄抓取了大量民謠的歌詞,統計了歌詞中常出現的詞匯,同時使用了騰訊文智和哈工大社會計算與信息檢索研究中心的自然語言處理模塊,對這些詞匯的感情色彩進行分析。
得出了如下結論:
在我的統計中,出現最多的幾個意象是:再見,姑娘,夜空,孤獨,快樂。
如果把民謠擬人化,那應該是一個喜歡南方的北京小伙子,覺得世界很讓他無語,但罵歸罵,到底是對生活有希望的,憧憬著明天,在春天感到快樂,在冬天感到孤獨,沒有女朋友,但有幾個糾纏不清的前女友,經常和她們見面,見面的地方可能是成都,昆明,南京,上海,武漢。
也許你認為這些關鍵詞最大的用戶無非就是寫篇文章,博眾人一笑,成為閑暇的談資,那就錯了!
既然這些關鍵詞從真實的用戶中來,那么通過關鍵詞也能了解用戶在想什么,也能用于產品中,例如運用于點評,咨詢,文章,內容推薦等等。
關鍵詞的運用場景
1. 點評
如果內容數據從點評中來,那么可以篩選出好評,中評,差評的內容,分別提取出對應評價的關鍵詞。
在產品功能上,提供點評的便捷輸入的標簽,而標簽的內容,就可以是用戶常常使用的詞匯(既你提取出的關鍵詞)。
提供這些便捷輸入能提升點評的體驗,也能促使用戶點評,提高總體的點評量。
2. 文章
一篇好文章最怕的是沒有閱讀量,但單單靠標題黨絕對不是長久之計,真正從內容下功夫才是王道。
在對的場景中將用戶感興趣的文章推薦給他是提升閱讀量的有效方法。
以醫療舉例,在皮膚科的專題頁面中,通過分析皮膚科用戶的咨詢數據,了解用戶最常咨詢的關鍵詞是“濕疹”、“皮疹”、“皮炎”、“皮損”等等,那么文章的選題就可以從這些用戶常咨詢的關鍵詞入手來展開。
3. 咨詢主訴內容的填寫
通過分析咨詢內容,在用戶填寫自己病情的時候,顯示出來對應的關鍵詞標簽,讓用戶點擊快速輸入,減少用戶手動輸入的內容。
既能幫助用戶實現更高效的輸入方式,同時通過標簽的提醒,也能提醒用戶自己是否存在同樣的癥狀,在描述癥狀是更加的仔細,提高咨詢填寫主訴的質量。
4. 建立疾病和對應的同義詞庫
腦洞再大的時候(這里可能不科學,純屬腦洞),我們去分析某個疾病下用戶的關鍵詞是什么,將這些描述癥狀的關鍵詞設為疾病的同義詞,讓兩者建立關聯關系。
這樣做的好處在于,讓用戶在搜索某個疾病的癥狀的時候,例如牙疼,那么就能通過這些描述癥狀的關鍵詞去找到對應的疾病名,提示用戶可能的疾病是什么,提高搜索的準度。
最后:三步驟總結
至此,通過三步驟:
(1) 收集用戶的內容數據,我們獲得了
《帶有大量文本內容的數據表格》 X1
(2)通過提取內容關鍵詞,我們獲得了
《帶有詞頻及權重的關鍵詞表格》 X1
(3)通過分析關鍵詞,運用于產品,我們可能會獲得
- 點評功能 X 數據上漲 ↑
- 資訊功能 X 數據上漲 ↑
- 咨詢功能 X 數據上漲 ↑
- 搜索功能 X 數據上漲 ↑
關鍵詞運用的場景還能有很多,可以慢慢挖掘,歡迎交流。
推薦閱讀
本文由 @朱利安 原創發布于人人都是產品經理。未經許可,禁止轉載。
如何與搜索結合?知道了大部分用戶的意圖,然后呢?
干的漂亮 (M-7)
切詞軟件用的是哪個?求大神推薦~
同求
詳細干貨,好文,馬??!
爬取網上的信息,可以詳細說一下嗎,都爬取哪些網站,什么類型的,我是為了提高自己官網的內容吸引力和醫生咨詢的水平
好大夫的咨詢記錄,官網上有公開的,可以直接爬
干貨滿滿,謝謝樓主啦。
想請問下關鍵詞提取軟件哪一款比較好用?
目前中文的關鍵詞提取軟件沒發現比較好用的,目前用的是在逛知乎的時候看到的一款——光年關鍵詞提取軟件,騰訊的文智聽說也還不錯。