基于數(shù)據(jù)分析的帕金森用戶需求報告
作者對帕金森用戶關(guān)注的需求進行了數(shù)據(jù)分析,主要是用戶關(guān)注度較高的話題和閱讀量最高的話題,用戶需求報告與大家分享,供大家參考和學(xué)習(xí)。
01 背景介紹
因為工作需要,花了點時間利用數(shù)據(jù)來分析了下帕金森病用戶(不是患者)關(guān)注的需求,分析的結(jié)果與大家分享。
1.1 分析目標(biāo)
分析帕金森病用戶關(guān)注的內(nèi)容,并了解些內(nèi)容的重要性。
1.2 研究假設(shè)
本次研究過程基于以下假設(shè):
- 用戶的行為反應(yīng)與其關(guān)注的內(nèi)容有強相關(guān)性;
- 收集的數(shù)據(jù)真實的反應(yīng)了用戶的行為;
1.3 研究方式
通過分析用戶之間討論的話題以及用戶瀏覽的資訊了解其關(guān)注的內(nèi)容。
1.4 研究思路
(1)數(shù)據(jù)收集
話題可以從各個疾病相關(guān)的論壇,或者從相關(guān)產(chǎn)品的評論、意見反饋中收集。這里選取的是一個與帕金森相關(guān)的某論壇以及幾個主流的資訊產(chǎn)品。
(2)數(shù)據(jù)分析
根據(jù)話題閱讀量,篩選出用戶閱讀量較高的話題,通過自然語言技術(shù)提取內(nèi)容的主題、標(biāo)簽,然后運用分類算法對主題和標(biāo)簽的進行分類,匯總出用戶重點關(guān)注的話題內(nèi)容。
根據(jù)資訊閱讀量,篩選出閱讀量前置的文章和后置的文章,同樣進行標(biāo)簽處理歸類,并與話題分析的結(jié)果比對,以此驗證分析結(jié)果是否一致。
02 分析過程
2.1 數(shù)據(jù)概覽
在收集到話題數(shù)據(jù)后先大致瀏覽下,檢查有無缺省項或者無意義的數(shù)據(jù),如果量不大可以直接刪除掉。
經(jīng)過統(tǒng)計得到有效話題總量是6840條,這個數(shù)量作為單一病種而言是很可觀的,積累這么多內(nèi)容的背后就是一大批用戶在使用。
然后再對數(shù)據(jù)結(jié)構(gòu)進行觀察,下面是話題的數(shù)據(jù)結(jié)構(gòu)。
不難發(fā)現(xiàn)這里的發(fā)表時間、閱讀數(shù)、評論數(shù)三個指標(biāo)是值類型(就是可以比較大小的數(shù)字),因此可以直接從這三個指標(biāo)著手分析。
先看發(fā)表時間,對數(shù)據(jù)做個排序就可以知道最近的發(fā)表時間是2019年9月9日(數(shù)據(jù)從10月中旬開始采集),時間距離當(dāng)前很近,說明目前仍有人在使用。最早的發(fā)表是2002年3月4日,距今已有17年半,論壇創(chuàng)建的時間越早,沉淀的內(nèi)容越多是好事。
發(fā)表時間是在時間維度上是一個個的點,為了反映出整體規(guī)律,要考慮通過分組聚合。既然時間跨度較大,這里就采用年作為頻率(月也可以,只是太細(xì)了),按年分組統(tǒng)計各年發(fā)表的文章見下圖(2002年數(shù)據(jù)較少,2003年數(shù)據(jù)缺失所以未計入)。
從上圖可以看到該論壇的發(fā)貼量大致分為三個周期:2008年以前在均值附近有較大波動,2009年有大幅漲增并至2013年,2014年后幾乎逐年下降。從每年的發(fā)貼量似乎發(fā)現(xiàn)不了什么問題,圍繞發(fā)表時間這個維度的分析就此打住,該現(xiàn)象背后的原因不在本次分析的范圍內(nèi)就不探究了(本人猜測可能與帕金森患者漲增或社會環(huán)境有關(guān)(如2013年前后智能機普及))。
接下來看閱讀數(shù)指標(biāo),對所有話題的閱讀數(shù)匯總后的累計閱讀數(shù)是22,326,364,這是一個不小的閱讀量,平均每年僅話題就有近130萬的PV(全國帕金森患者大概200萬左右,每年增量約10萬),側(cè)面說明采集的數(shù)據(jù)可以較好地反映帕金森用戶關(guān)注的問題。
根據(jù)閱讀數(shù)對話題降序處理,然后按10%的發(fā)貼數(shù)作為累進對閱讀數(shù)求和,如下圖所示。
從上圖可以很直觀地看有意思的事了,前10%的話題聚中了56.15%的閱讀量,20%的話題產(chǎn)生了65.37%,雖然不符合二八規(guī)律,但是閱讀聚中度依然很明顯。因此可以從這20%的話題入手分析用戶關(guān)注的內(nèi)容(如果閱讀量分布較為均衡就考慮采用分層抽樣統(tǒng)計。只選20%的內(nèi)容一方面是用戶行為集中可以更好地突顯問題,另一方面留80%的數(shù)據(jù)是為了選取測試數(shù)據(jù)作檢驗)。
2.2 對關(guān)注度較高的話題的內(nèi)容分析
接下來采用自然語言技術(shù)對所有話題基于其內(nèi)容提取出主題標(biāo)簽,瀏覽主題標(biāo)簽,根據(jù)標(biāo)簽內(nèi)容對話題分類(分類可以手動,可以基于規(guī)則,也可以適用回歸或決策模型后再調(diào)整,對分類后的結(jié)果再人工檢查一遍),并將歸類結(jié)果結(jié)合測試數(shù)據(jù)作F檢驗(與前20%話題的檢驗結(jié)果不一致,說明閱讀量的大小與其內(nèi)容有相關(guān)性),反復(fù)修整分類的劃分,篩選出用戶重點關(guān)注的問題(具體實現(xiàn)過程省略)。
對閱讀數(shù)前置20%話題的內(nèi)容分析結(jié)果如下圖所示:
在分析之前我以為帕金森用戶最關(guān)心的是求醫(yī)的問題,畢竟患者都想找到技術(shù)精湛的專家治療。但從上面可以看到帕金森用戶最關(guān)注的是藥物問題,為什么會出現(xiàn)這個結(jié)果,還要結(jié)合病種和患者特征解釋。
首先,帕金森病目前無法被根治,只能通過醫(yī)療手段延緩病情發(fā)展,而當(dāng)前最低成本最快見效的治療方法就是吃藥,因此也就意味著帕金森患者用藥群體占有很大的比例(事實上幾乎人人必須吃藥)。其次,帕金森病發(fā)病的癥狀很多,不同的癥狀使用的藥品也不盡相同,加之該病種主要集中于中老年人群體,受生理機能衰退影響,往往會有其它并發(fā)癥出現(xiàn),患者之間用的藥品差異比較大。最后,藥效影響也較大,即使相同癥狀的患者使用相同藥品,受個體差異的影響,表現(xiàn)的藥效也會有較大差異,甚至同個患者不同階段和時間吃同樣的藥品反應(yīng)的效果也會不同,所以藥物問題一直備受用戶關(guān)注。
帕金森用戶關(guān)注的第二個問題是治療方法,帕金森患者長期受帕金森困撓,得知一種新的治療方法就如同有了一線改善的希望,這也是本能驅(qū)使。第三個問題是經(jīng)歷分享,帕金森患者的治療經(jīng)歷大都很曲折,從他人分享的故事中不僅僅是吸取治療經(jīng)驗,更是能獲得百折不撓的情感共鳴,尋求心理慰藉。
并列第四、五位的是日??祻?fù)和癥狀應(yīng)對,日??祻?fù)主要包含運動、飲食、鍛煉和睡眠幾方面,需要長期堅持并隨病情變化做出對應(yīng)調(diào)整;癥狀應(yīng)對這類問題主要是患者出現(xiàn)異常癥狀或病情改善效果持續(xù)不佳時尋求幫助,這類幫助往往比較突發(fā)且頻率不高,話題的深度也視內(nèi)容而定。除了藥物問題外就這四類問題較為受關(guān)注,且與病種有關(guān),其它的問題關(guān)注度相對少了許多。
既然藥物問題是帕金森用戶關(guān)注的首要問題,因此有必要對藥物問題再作細(xì)分,細(xì)分結(jié)果見下圖:
對涉及藥物相關(guān)的話題從討論的目的這個維度再作細(xì)分,就可以發(fā)現(xiàn)大致可以分為兩類,第一類是調(diào)整用藥或了解藥效(把二者劃分為一個問題是因為多數(shù)話題中討論用藥效果的最終目的也就是想借鑒他人經(jīng)驗來調(diào)整自己用藥)?,F(xiàn)實場景中帕金森患者要經(jīng)常找醫(yī)生調(diào)整用藥方案,但是就診過程中醫(yī)生很難精準(zhǔn)掌握患者的病情,因此也難給出精確的用藥方案。如果用藥方案效果不佳,飽受癥狀的折磨之下患者自己常常會嘗試調(diào)整用藥方案,而調(diào)整的方向很大程度上借鑒其它患者與自己的病情是否相似,需要參考的因素有很多,比如年齡、病齡、嚴(yán)重程度、癥狀以及歷史用藥方案等。因此如何及時有效地調(diào)整用藥方案成為帕金森患者群體中經(jīng)常討論的問題。
涉及藥物的第二類是購買或轉(zhuǎn)讓藥品,產(chǎn)生這個問題一方面是帕金森相關(guān)的很多藥品經(jīng)常斷貨或者供貨渠道不穩(wěn)定,為了保證藥品的維持,不得不經(jīng)常關(guān)注供貨渠道或者托他人從境外代購,另一方面國內(nèi)出售的帕金森藥品并不便宜,而且多數(shù)患者用藥的品種多且藥量大(比如三年病程的帕金森患者經(jīng)常每天吃四五次藥,每次兩三種),長期用藥必然產(chǎn)生經(jīng)濟壓力,被迫服用各類仿制藥以降低治療成本。
為了更直觀地了解藥物話題的內(nèi)容,這里將涉及藥物話題的主題詞抽取出來制作成詞云:
上面可以看到較為突出的詞語有三類,第一類是藥品,如雷沙吉蘭、美多芭、森福羅、泰舒達(dá)等,第二類是與人相關(guān),如病友、醫(yī)生、朋友、患者等,第三類是信息詞語,如效果、病情、經(jīng)歷等。那么這三類詞語融合到一起,大概率就是想表達(dá)向這些人了解藥品的效果或是了解某種病情下的用藥過程。
再對排在第二的治療方法同樣作細(xì)分,細(xì)分的結(jié)果如下圖所示。
治療方法當(dāng)中關(guān)注度最高的是新療法,新療法大部分是當(dāng)前還處于研發(fā)或臨床階段的治療方法,提供內(nèi)容的主要是理論支持或是為數(shù)不多的幾例試驗結(jié)果,其實是真正落地仍然有較長時間,但是對于帕金森患者來說,每多一種方法就多一份希望和期待。
其次是中醫(yī)中藥類療法,帕金森患者主要是中老年人,對中醫(yī)療法有著較高的接受度,這類療法主要是草藥、針炙、點穴、艾灸或其它一些偏方的應(yīng)用,其效果不能一概而論是有效或是無效,但嘗試的過程多少起到心理安慰的作用,積極的心理可以很好緩解抑郁狀態(tài)。
再次是DBS(深度腦刺激)手術(shù),這類手術(shù)是主要是將電極植入到患者腦內(nèi),運用脈沖發(fā)生器刺激其大腦深部的某些神經(jīng)核,糾正異常的大腦電環(huán)路,從而減輕這些神經(jīng)方面的癥狀。這是當(dāng)前可以長期改善帕金森癥狀的有效療法,但是接受度并不高,患者主要是對手術(shù)效果、費用及報銷政策、就醫(yī)水平、等方面產(chǎn)生擔(dān)憂。
2.3 對閱讀量最高的話題的情感分析
上面從閱讀量前置20%的話題分析出的帕金森用戶主要關(guān)注的是藥物及治療方法等問題,沿著閱讀量這個維度,再看看閱讀量最高的一個話題。
這個話題從2004年11月發(fā)布,至今積累的評論數(shù)達(dá)到1194條,閱讀更是超過148萬。話題講述一位患者試了中醫(yī)醫(yī)生提供的中藥后很快見效,該內(nèi)容與前面分析的用戶最關(guān)注的藥物和中藥問題一致,這也是該話題能產(chǎn)生如此大的訪問量的根本原因。由于話題的內(nèi)容具體,參與的用戶眾多,這次我嘗試從情感層面整體分析用戶對中藥治療帕金森的態(tài)度(原本是嘗試直接提取觀點的,但效果并不好),在置信度為0.8的條件下分析結(jié)果如下圖所示。
對這則中藥可以緩解帕金森癥狀的消息,67%的用戶持積極或肯定態(tài)度,33%的用戶持消極或質(zhì)疑態(tài)度,兩者正好二比一。表面上看對中藥持肯定態(tài)度的用戶占有大多數(shù),但另一面卻是幾乎三個帕金森用戶就有一人表示質(zhì)疑,這個比例同樣也很大,那么再接下來有必要對持積極和消極態(tài)度兩類人群的觀點梳理下。
上面是部分消極評論的內(nèi)容,容易看出消極評論主要是配方成分不明、有無科學(xué)依據(jù)等,由此對該藥物的使用產(chǎn)生防范心理,其背后是對信息不透明的擔(dān)心,畢竟不良藥品攝入人身的危害巨大,而更深層的原因是藥物價值缺乏公信力。
持積極態(tài)度的評論的用戶多是從獲得的希望和實際效果兩方面做出評論,這也與藥物及新療法關(guān)注度高的原因一致。
2.4 對閱讀量高和閱讀量低的文章的語義網(wǎng)絡(luò)分析
以上是基于幾千份用戶討論的話題分析出的用戶需求偏好,文字交流只是用戶行為中的一部分,那么,其行為特點在其它行為中是否還保持一致呢,為此,有必要再通過其它行為的偏好來驗證這一結(jié)果。為了方便觀察就選擇閱讀行為,通過閱讀的內(nèi)容來判斷上面的需求是否成立。
為了更直觀對比,閱讀量降序后各選取前置20%和后置20%的文章來分析(約各取280篇)。接下來跟上面的分析話題的方式類似,通過自然語言處技術(shù)提取出主題標(biāo)簽,不過這次就不分類了,因為我想通過構(gòu)建文章的語義網(wǎng)絡(luò)觀察具體的內(nèi)容。
(閱讀量前置20%的文章的語義網(wǎng)絡(luò))
(閱讀量后置20%的文章的語義網(wǎng)絡(luò))
上面兩張圖非常直觀地反應(yīng)出了閱讀量前置和后置各20%的文章的語義網(wǎng)絡(luò)。標(biāo)簽圖形越大反應(yīng)出該標(biāo)簽的文章越多,網(wǎng)絡(luò)線越粗表示連接的標(biāo)簽同時出現(xiàn)的頻次越高。不難發(fā)現(xiàn)二者的網(wǎng)絡(luò)內(nèi)容存在較大差異,主要有這樣幾點。
第一、語義網(wǎng)絡(luò)的復(fù)雜程度不同。相較于閱讀量后置20%的文章,閱讀量前置20%的文章的語義網(wǎng)絡(luò)較為復(fù)雜,但中心標(biāo)簽與邊緣標(biāo)簽分明,中心標(biāo)簽之間連接清晰,邊緣標(biāo)簽幾乎都直接連接中心標(biāo)簽。閱讀量后置20%的文章的語義網(wǎng)絡(luò)較為簡單,中心標(biāo)簽與邊緣標(biāo)簽無法清晰界定,且邊緣標(biāo)簽多為間接連接中心標(biāo)簽。由此可以推測出閱讀量高的文章的特點是內(nèi)容緊扣主題,文章的深度主要表現(xiàn)涉及的信息又比較為廣(邊緣標(biāo)簽較多且復(fù)雜),簡單地理解就是高閱讀量的文章相對篇幅較大且緊扣主題,而低閱讀量的文章比較泛泛而談,缺乏實質(zhì)內(nèi)容。
第二、主要的主題標(biāo)簽不同。閱讀量前置20%的文章的中心標(biāo)簽是藥品、養(yǎng)生、運動,閱讀量后置20%的文章的養(yǎng)生最突出,其次是靜止性震顫、運動、飲食。兩圖的標(biāo)簽對比最顯明的差別是閱讀量前置20%的文章含有藥品標(biāo)簽,并且該標(biāo)簽在語義網(wǎng)絡(luò)中最醒目。這直接說明涉及藥品的文章的閱讀量較高,也說明用戶較為關(guān)注藥品類文章。
由此可見,帕金森用戶對藥物的高度關(guān)注在話題討論上和閱讀文章上是一致的,這說明了圍繞的藥物問題的確是帕金森用戶的一大痛點。
03 總結(jié)
根據(jù)上面對帕金森相關(guān)話題和文章的分析,我們可以很清楚地看到,帕金森用戶的線上需求主要是了解藥物的使用和購買、當(dāng)前或前沿的治療方法、其它帕金森患者的治療經(jīng)歷以及日??祻?fù)等信息。
其動機多是自己或家屬人受帕金森病癥的折磨,需要積累疾病管理知識,或是面臨某些具體癥狀困撓時解決經(jīng)驗不足,需要尋求幫助或類似的解決經(jīng)驗,在尋求幫助的過程中目標(biāo)往往很明確。因此,帕金森用戶線上需求的本質(zhì)是尋求以疾病問題解決為導(dǎo)向的經(jīng)驗分享。
那么圍繞用戶的本質(zhì)需求,產(chǎn)品應(yīng)該盡可能提供豐富的疾病資料或管理經(jīng)驗,提升用戶獲取解決方法的效果和效率。另外由于帕金森病患者的個體差異較大,遇到的問題也不盡相同,如何方便用戶根據(jù)自己的問題匹配現(xiàn)有的他人經(jīng)驗就是產(chǎn)品的一大挑戰(zhàn)。所以產(chǎn)品的核心應(yīng)該是提升這些知識或經(jīng)驗的聚合以及內(nèi)容的檢索能力。
但是即使產(chǎn)品可以提供疾病相關(guān)的信息和經(jīng)驗分享,又如何讓用戶相信內(nèi)容有價值并且參與到經(jīng)驗分享的過程,其關(guān)鍵是要構(gòu)建用戶與平臺的信任關(guān)系。在前面分析閱讀量最高的討論中,帕金森患者愿意嘗試中藥除了自己身渴望改善的因素外,更多基于對版主和平臺的信任。用戶和平臺天然沒有信任關(guān)系,但患者之間是有信任的,因為彼此并沒有利益輸送,所以利用這種關(guān)系來構(gòu)建用戶與平臺的信任將是一個重要突破口。
最后要說明的是本次基于數(shù)據(jù)分析的帕金森用戶需求報告有兩大局限性,一是側(cè)重于用戶交流內(nèi)容,行為偏好較少,二是分析的顆粒度較大,比較宏觀,歡迎廣大PM共同探討。
本文由 @凌波 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于CC0協(xié)議。
通過話題的閱讀量分析用戶的需求,其實是假設(shè)每個話題得到的曝光機會是相同的,用戶閱讀是用戶主動選擇的結(jié)果。但是很多內(nèi)容可能是由編輯干預(yù)、置頂、排序的,這樣是否會異化用戶的需求?導(dǎo)致得到的數(shù)據(jù)并不能真實的反映用戶的意愿
說沒影響肯定是不可能的,為了盡可能反映真實需求,求證的數(shù)據(jù)來源不能單一,所以這些從話題和文章兩方面同時分析(分屬四個不同平臺的數(shù)據(jù)源),最后的結(jié)論趨同性較高,可以相互佐證。