「用戶研究」基于游客評論的消息價值挖掘實例
編輯導語:讀懂客戶對于用戶研究工作過程中極為重要,本文作者分享了基于游客評論的消息價值來做用戶研究的相關內容,講述了游客研究的過程和步驟等,感興趣的一起來看看。
繼上一篇文章從理論與工具推薦的層面分享了如何從評論中讀懂用戶,這篇文章我將從頭到尾將用戶評論的獲取再到內容分析的樣貌全盤呈現,以期對評論分析有需求的同學們提供更加詳盡的幫助。沒閱讀上一篇文章的可以點擊我的個人主頁查看。
為了使行文更加便捷,本篇分享我將以評論豐富、反爬措施寬松的旅游行業舉例。假如我是馮小剛電影公社的管理者,面對各個OTA平臺海量的游客評論,開始了自己的游客研究之旅。
一、評論內容的獲取
據瀏覽發現,景區的在線評論集中在幾個頭部OTA網站,分別為攜程、去哪兒、途牛、美團四家。
第一步先將景區在這個平臺的網址搜集下來,分別進行評論內容的采集,文中以
攜程網為例。
第二步打開Python,編寫代碼(網上也有很多可以直接調用的代碼),配置好你所需要爬取的頁數范圍以及所期待爬取的字段,開始采集即可。如若需要攜程評論爬取的源碼,評論區留言即可。
倘若是非編程手段,這里以后羿采集器為例,安裝好后,輸入網址,點擊智能采集,等待加載頁面,在頁面底部編輯將不需要的字段剔除,文中只保留了用戶id、評論內容與評論時間。
在爬取完后,生成excel表格,打開表格可以見到已經采集完畢,共得到3900條數據,至此數據采集階段結束。
二、第二步、預處理評論數據
分詞與去除停用詞。打開Rost cm6軟件,發現其只支持文本格式的內容,于是將excel表導出為文本格式。而后在Rost cm6的界面中打開分詞窗口,選中待處理文件,選擇結果保存位置,選擇停用詞表,而后確定運行即可。
三、第三步、詞頻分析與情感分析
同樣的是Rost cm6,打開詞頻分析窗口,選擇上個步驟中輸出的分詞結果,確定分詞,得到按照詞頻排序的excel文件,將其按照景區風格、娛樂體驗以及情緒感知三個維度分類,歸結出以下表格。
由表中內容可以見得在游客心目中馮小剛電影公社的風格維系在與景區定位相一致的水平上,即由高頻詞中的“芳華”、“南洋”、“民國”、“穿越”等詞語相對應,也能看到“海南”、“??凇贝淼胤教厣膮^位詞被反復提及。
其次游客對景區的娛樂體驗的感知則絕大部分集中在“拍照”上,“服裝”、“衣服”、“旗袍”等代入式的拍照體驗也表明景區給游客帶來的價值多是單向互動的環境塑造,同時從“門票”、“票價”中可以看到游客對于景區的門票售賣頗為看重,另外“晚上”、“夜景”頻繁出現,表明相較于白天景區,晚上的馮小剛電影公社具有另一番特色。
故而被游客在意,而景區內的“冰雪”大世界、“海洋館”也給游客留下不少印象;此外,高頻詞的情緒感知維度中,見到“值得”、“好玩”、“好看”、“方便”等詞頻現,同時也見到“不值”、“收費”、“太貴”、“便宜”等對立的感知,可以見得在不同群體的判別標準中,票價與景觀具有截然不同的作用效果。
到這一步就可以實現了最基礎的文本分析即詞頻分析,接著為了使詞頻更加可視化,將其導入到上一篇文章推薦的詞云網站中生成詞云。
依舊是在Rost cm6域內,打開情感分析窗口,導入未分詞的評論文本,一鍵分析即可,經過簡單處理,得到馮小剛電影公社的游客評論情緒如下??梢园l現游客對馮小剛電影公社的評論中積極情感比例大于消極情緒的比例,總體情感偏向大致呈現積極態勢,而且情感的極端性不顯著。
四、第四步、語義網絡共現
方便起見,本文只在Rost cm6中生成最基礎的語義網絡圖,生成過程不做贅述,與上文提到的詞頻分析、情感分析相似。得到語義網絡圖如下(本文將其按照積極情緒與消極情緒分別制作了語義網絡圖)。
1. 積極情緒
馮小剛電影公社游客表達的積極情緒多為好看、好玩、適合等,這些積極情感的產生與景區目的地的服務定位相合。
從積極情緒的語義網絡結構圖可以看出,“拍照”作為中心節點之一,與“旗袍”、“衣服”、“服裝”等詞匯密切聯系,同時“晚上”也是頻繁提及的詞匯,證明拍照這個娛樂活動在游客的體驗中摻雜著諸多與景區內的服飾提供服務聯系密切。
再看到以“建筑”為中心節點的詞群,“南洋”、“民國”、“穿越”、“年代”等詞匯頻現,與景區的建筑風格完全相一致;另外看到以“芳華”為中心詞的詞匯則多和“公社”、“馮小剛”、“拍攝”、“小院”聯系起來,可以認為在景區里,芳華小院的地位不輕,多為游客關注且產生好感。
2. 消極情緒
游客在消極情緒中多展露出懊惱、遺憾等。其產生原因與門票價格與景區內容管理以及游客自身認知等多種因素相關。
景區門票價格的設置不合理導致了游客體驗情緒不佳,致使產生消極情感。從消極情緒的語義網絡結構圖(右圖)中可以看到,以“門票”與“景區”兩個關鍵中心詞為節點的詞群中表現出了主要的消極情感。
例如“門票”連接的“還要”“不便”二詞反映出園區重復收費等現象嚴重,激發游客的不滿也使游客感覺游玩體驗的完整性被破壞;另外“景區”連接著的 “不大”“票價”等詞有效反映出對于部分產生消極情緒的游客來說,馮小剛電影公社的面積以及內容不夠豐富,使得游客產生景區較小值不回票價的遺憾情感。
五、第五步、主題分析
本文使用到基于TF-IDF方法的主題詞聚類分析,TF意為詞頻,用來測算詞條出現的頻率,而IDF意為反文檔頻率,用來衡量前述詞條的普遍重要性。
其計算公式為:
TF-IDF=TF×IDF
對已經經過調查上述數據預處理的在線評論文本另存為xlsx格式導入Python,進行LDA主題模型構建,采用TF-IDF方法,反復試驗調整詞匯表為最高閾值為0.4(即該詞在超過40%的評論里出現過則作廢,認為其無特征意義),聚類主題數為4個。最后得到的在線評論主題詞分類結果如下表所示。
主題詞聚類的結果顯示,游客對馮小剛電影公社的感知因素有主打特色、娛樂設施、基礎設施與情緒感知四個方面。可以認為較有多面性與復雜性。并且主題聚類結果與上文詞頻分析人腦歸結出的三個類別高度重合,很符合預期。
馮小剛電影公社的景點之一即攝制場地,表現在游客體驗中頻繁表現出的“芳華”以及“電影”、“公社”以及“小院”中,證明其在游客游覽的過程中產生了重要影響且評價多為“不錯”。
同時可以從第二個主題中看到游客游玩體驗到的“拍照”、“穿越”感、“民國”、“南洋”以及“天氣”是為其娛樂過程中著重在意的感知,備受青睞和關注。
另外從游客的情緒感知即第四個主題可以看到“性價比”、“不值”,“喜歡”、“一般般”等對立的情緒感知,可以認為對不同人群來說,馮小剛電影公社的體驗不盡相同,或為價格敏感型顧客與否的區別,景區可以從價格歧視的角度出發設置票型以顧及不同消費者群體的感受。
六、第六步、給結論
經過上述游客評論分析,作為馮小剛電影公社的管理者就可以總結出以下結論以支撐在運營與管理側的改良。
- 其一,改善景區入口服務。景區應該制定合理的定價策略,例如考慮到價格接受程度不同的游客的體會,實現差別定價策略。在景區可以接受的范圍內,對不同游客如普通游客、學生、幼兒、老年人等定義不同的價格標準。再有就是錯峰調整票價,節假日等旅游旺季不妨全價,而在旅游淡季時,票價就需要折扣,同時不同渠道的購票也應該差別定價。同時將套票的價格放低,鼓勵游客購買優惠的套票,以鼓勵游客體驗景區全貌。
- 其二,景區內應該增加導游類服務人員,為游客游玩時長做加持,使不愛拍照的游客也能在工作人員的講解下沉浸在景區的風格與建筑背后的故事中,減少類似不值票價的情感出現,使此類游客的游玩時長加長。
- 第三,加強市場監管,提升旅游服務質量。對市場監管的加強,嚴格規范馮小剛電影公社景區內的各類市場行為,對提供的服務、產品的質量制定一套統一的標準。堅決禁止宰客的行為出現,尤其對景區內的服裝租賃服務加強監管。以一系列的措施解決游客游玩中遇到的問題,減少游客的消極情緒產生。
本文由 @ 我叫徐知魚 原創發布于人人都是產品經理,未經作者許可,禁止轉載
題圖來自 unsplash,基于 CC0 協議
想問一下最后一個主題分析和詞頻維度是一個東西嗎?我可以根據自己的目標自行進行主題分類嗎?
文中的主題分析是基于TF-IDF方法做的,如果你需要自己手工做主題分類的話,不需要采用這個算法,或者僅將它的結果作為輔助即可。商業分析相對來說不需要像學術那么嚴絲合縫,能表達清楚自己的觀點即可。
作者有公眾號嘛,想追更了
您好,我又來了。請問在分詞中,處理的數據是否需要包括日期和用戶名呢?主要分析內容是否是指評論內容呢?感謝您的分享。
日期和用戶名是不包含的。分詞的對象就是評論內容,所以將Excel轉化為文本文件導入rost cm6的前一步,需要把id和日期字段刪除。沒有在文中體現很抱歉,但是您問出這個問題應該也意識到正確的操作辦法了,贊。
感謝您的指導。后來意識到了,修改過后的分析內容更符合需求了。
您好,請問一下,在第三步“確定分詞,得到按照詞頻排序的excel文件,將其按照景區風格、娛樂體驗以及情緒感知三個維度分類,”這里,按照維度分類是需要手動在EXCEL里分類的嗎?
是的,需要手動劃分,我省略了這個步驟,因為這屬于是主題分析的一部分了,本文中的緯度劃分是基于學術屆的一些共識/結論進行劃分的,這種景區的感知維度一般來說就包含他們仨。而在上一篇文章中我主要介紹了基于算法模型的「lda主題聚類」,本文中也有用到lda主題聚類分析,并且和這里的維度分類較為擬合。
很有幫助的用戶研究方法!大范圍的評論確實可以反映出存在和需要改進的問題。
謝謝你的認可??