基于25W+知乎數(shù)據(jù),我挖掘出這些人群特征和內(nèi)容偏好(一)

2 評(píng)論 10405 瀏覽 30 收藏 28 分鐘

本文作者基于25W+知乎數(shù)據(jù),挖掘出與話(huà)題相關(guān)的人群特征和內(nèi)容偏好,一起來(lái)看看~

本次對(duì)話(huà)題進(jìn)行分析的重點(diǎn)在于:

  1. 男、女性用戶(hù)的話(huà)題關(guān)注差異
  2. 話(huà)題頻繁項(xiàng)集和關(guān)聯(lián)規(guī)則挖掘
  3. 用Word2vec量化話(huà)題之間的關(guān)聯(lián)性

分析部分

1. 話(huà)題分析

在社會(huì)化媒體中,話(huà)題是指一個(gè)有影響力的事件或者活動(dòng)。而在知乎上,話(huà)題是由內(nèi)容(問(wèn)題和回答)和人(提問(wèn)者、回答者和關(guān)注者)構(gòu)成的,而且話(huà)題之間存在著父子級(jí)關(guān)系。

知乎上的“話(huà)題”有別于其他社會(huì)化媒體上的“標(biāo)簽”,并非由用戶(hù)自由創(chuàng)建、自由使用。如果話(huà)題被合理的添加到問(wèn)題上,就意味著根據(jù)社區(qū)的共識(shí)和使用習(xí)慣,一些可能相似的內(nèi)容被聯(lián)系在了一起。

本質(zhì)上,話(huà)題的作用是連接人和問(wèn)題,它描述的是一個(gè)領(lǐng)域。一類(lèi)有共同主題或?qū)傩缘膯?wèn)題可以歸類(lèi)到一個(gè)話(huà)題下。這些基于話(huà)題的聯(lián)系和分組能夠幫助用戶(hù)方便、快速的發(fā)現(xiàn)某個(gè)主題的內(nèi)容。

在知乎這個(gè)社會(huì)化媒體上,話(huà)題是用戶(hù)活動(dòng)的基礎(chǔ),用戶(hù)的信息創(chuàng)造、傳播、組織必須依賴(lài)于話(huà)題。因此,對(duì)知乎上“數(shù)據(jù)分析”相關(guān)用戶(hù)群體的話(huà)題偏好分析很有必要,它可以從宏觀(guān)上把握用戶(hù)的內(nèi)容需求。

(1)男、女性用戶(hù)的話(huà)題關(guān)注差異

經(jīng)統(tǒng)計(jì),女性關(guān)注的話(huà)題數(shù)量有28727個(gè),男性用戶(hù)關(guān)注的話(huà)題數(shù)量是?35774個(gè),從關(guān)注話(huà)題豐富度上來(lái)看,男性用戶(hù)明顯要多于女性用戶(hù)。

二者關(guān)注話(huà)題的交并集情況如下所示:

由上圖可見(jiàn),男女性用戶(hù)共同關(guān)注的話(huà)題較多,數(shù)量為22396個(gè),分別占到女性話(huà)題關(guān)注數(shù)的78%和男性話(huà)題關(guān)注數(shù)的63%??傮w上看,這部分人群在話(huà)題偏好上有較強(qiáng)的相似性。

現(xiàn)在由表及里,從TOP?30熱門(mén)話(huà)題來(lái)看男女性用戶(hù)在話(huà)題關(guān)注偏好上的異同。

先看看不區(qū)分性別下的TOP30熱門(mén)關(guān)注話(huà)題:

從上圖可以看到,“職業(yè)發(fā)展”、“自然科學(xué)”、“數(shù)據(jù)分析”、“電影”、“心理學(xué)”、“健身”、“生活”、“文學(xué)”、“互聯(lián)網(wǎng)”和“投資”等是總體上排名靠前的話(huà)題。

再來(lái)看看女性用戶(hù)TOP?30的熱門(mén)關(guān)注話(huà)題:

其中,“職業(yè)發(fā)展”、“心理學(xué)”、“電影”、“數(shù)據(jù)分析”、“健身”、“自然科學(xué)”、“生活”、“文學(xué)”、“旅行”和“美食”是女性群體較為關(guān)注的話(huà)題。

最后,看看男性用戶(hù)較為關(guān)注的TOP?30熱門(mén)話(huà)題:

其中,“自然科學(xué)”、“數(shù)據(jù)分析”、“電影”、“職業(yè)發(fā)展”、“互聯(lián)網(wǎng)”、“健身”、“心理學(xué)”、“生活”、“投資”、“歷史”是男性用戶(hù)較為關(guān)注的話(huà)題。

上面是按性別單獨(dú)來(lái)分析的,但數(shù)據(jù)分析只有在“求同存異”時(shí)才能發(fā)現(xiàn)一些有意思的信息。現(xiàn)在用韋恩圖展示一下男女性用戶(hù)關(guān)注話(huà)題TOP30的交集和差集(男女性用戶(hù)獨(dú)有的關(guān)注話(huà)題):

從TOP30關(guān)注話(huà)題的差集來(lái)看,女性用戶(hù)的關(guān)注話(huà)題反映出她們精致、居家的特點(diǎn),而男性用戶(hù)反映出他們對(duì)技術(shù)和理性的偏愛(ài)。同時(shí),二者的交集反映出他們對(duì)于自身職業(yè)發(fā)展的重視和對(duì)生活的的熱愛(ài)。

(2)話(huà)題頻繁項(xiàng)集和關(guān)聯(lián)規(guī)則挖掘

做數(shù)據(jù)分析的小伙伴幾乎都聽(tīng)說(shuō)過(guò)“啤酒與尿布”的故事?:在超市的訂單記錄中,啤酒和尿布總是頻繁共同出現(xiàn)在同一條訂單記錄里,如果把啤酒和尿布放在一起售賣(mài)就會(huì)產(chǎn)生較好的收益。

那么,細(xì)想推理一下:數(shù)據(jù)分析相關(guān)的用戶(hù)會(huì)關(guān)注一連串的話(huà)題,這些話(huà)題之間是否存在一定程度的關(guān)聯(lián)關(guān)系?

按我們的常識(shí)來(lái)看,會(huì)的。比如,筆者關(guān)注“數(shù)據(jù)挖掘”,那么,“數(shù)據(jù)分析”、“大數(shù)據(jù)”、“機(jī)器學(xué)習(xí)”也很有可能成為筆者傾向于關(guān)注的話(huà)題,這種情況倒是顯而易見(jiàn)。

但是,筆者還想挖掘另一類(lèi)的話(huà)題關(guān)聯(lián)性,比如,關(guān)注“數(shù)據(jù)分析”話(huà)題的用戶(hù)還會(huì)關(guān)注哪些跨領(lǐng)域的話(huà)題,比如“美食”、“星座”、“哲學(xué)”等,這些話(huà)題會(huì)超出我們的意料。但對(duì)于內(nèi)容運(yùn)營(yíng)者來(lái)說(shuō)是福音,因?yàn)樵跀?shù)據(jù)分析相關(guān)的文章里雜糅這部分輕松愉悅的“輔料”,會(huì)增強(qiáng)內(nèi)容的可讀性和趣味性,促進(jìn)內(nèi)容的自發(fā)傳播。

這就引出了本文的主題之一 ——話(huà)題關(guān)聯(lián)度挖掘。

它分為兩個(gè)方面:話(huà)題頻繁項(xiàng)集和話(huà)題關(guān)聯(lián)規(guī)則。前者是指在話(huà)題數(shù)據(jù)庫(kù)中大量頻繁出現(xiàn)的話(huà)題集合,后者比前者更進(jìn)一步,除了發(fā)型大量的話(huà)題集合,還能發(fā)現(xiàn)其中話(huà)題出現(xiàn)的先后順序。

1)頻繁項(xiàng)集的挖掘方法和原理

主流的頻繁項(xiàng)集挖掘算法有Apriori和FP-growth。其中,Apriori 算法需要多次掃描數(shù)據(jù)庫(kù),這就使得該算法本身不適合大數(shù)據(jù)量。由于此次分析的話(huà)題list較多,在單機(jī)上比較吃計(jì)算資源,筆者在這里采用性能較高的FP-Growth算法來(lái)挖掘話(huà)題之間的關(guān)聯(lián)性。

可喜的是,如果我們有了頻繁項(xiàng)集,就能順勢(shì)挖掘出關(guān)聯(lián)規(guī)則。

關(guān)聯(lián)規(guī)則是在頻繁項(xiàng)集的基礎(chǔ)上得到的,它指由集合?A,可以在某置信度下推出集合 B。通俗來(lái)說(shuō),就是如果 A 發(fā)生了,那么 B 也很有可能會(huì)發(fā)生。

舉個(gè)例子,有話(huà)題關(guān)聯(lián)規(guī)則如:{‘數(shù)據(jù)分析’, ‘數(shù)據(jù)挖掘’} -> {‘機(jī)器學(xué)習(xí)’},該規(guī)則的置信度是 0.9,意味著在所有關(guān)注了’數(shù)據(jù)分析’和’數(shù)據(jù)挖掘’的用戶(hù)中,有?90%的用戶(hù)還關(guān)注了’機(jī)器學(xué)習(xí)’這個(gè)話(huà)題。關(guān)聯(lián)規(guī)則可以用來(lái)發(fā)現(xiàn)很多有趣的規(guī)律。這其中需要先闡明兩個(gè)概念:支持度和置信度。

  • 支持度(Support):支持度指某頻繁項(xiàng)集在整個(gè)數(shù)據(jù)集中的比例。假設(shè)數(shù)據(jù)集有?10 條記錄,包含{‘數(shù)據(jù)分析’, ‘數(shù)據(jù)挖掘’}的有 5 條記錄,那么{‘數(shù)據(jù)分析’, ‘數(shù)據(jù)挖掘’}的支持度就是 5/10 = 0.5。
  • 置信度(Confidence):置信度是針對(duì)某個(gè)關(guān)聯(lián)規(guī)則定義的。有關(guān)聯(lián)規(guī)則如{‘數(shù)據(jù)分析’, ‘數(shù)據(jù)挖掘’} -> {‘機(jī)器學(xué)習(xí)’},它的置信度計(jì)算公式為{‘數(shù)據(jù)分析’, ‘數(shù)據(jù)挖掘’, ‘機(jī)器學(xué)習(xí)’}的支持度/{‘數(shù)據(jù)分析’, ‘數(shù)據(jù)挖掘’}的支持度。假設(shè){‘數(shù)據(jù)分析’, ‘數(shù)據(jù)挖掘’, ‘機(jī)器學(xué)習(xí)’}的支持度為 0.45,{‘數(shù)據(jù)分析’, ‘數(shù)據(jù)挖掘’}的支持度為 0.5,則{‘數(shù)據(jù)分析’, ‘數(shù)據(jù)挖掘’} -> {‘機(jī)器學(xué)習(xí)’}的置信度為 0.45 / 0.5 = 0.9。

2)話(huà)題頻繁項(xiàng)集和關(guān)聯(lián)規(guī)則的挖掘結(jié)果

a. 話(huà)題頻繁項(xiàng)集的挖掘結(jié)果

這里筆者取支持度大于等于100的話(huà)題頻繁集,因返回結(jié)果太多,篇幅所限,僅展示部分結(jié)果:

首先是“數(shù)據(jù)分析“這一話(huà)題的頻繁項(xiàng)集:

  • (‘體育’, ‘數(shù)據(jù)分析’): 174
  • (‘數(shù)據(jù)分析’, ‘蘋(píng)果公司_(Apple_Inc.)’): 152
  • (‘商業(yè)’, ‘數(shù)據(jù)分析’): 110
  • (‘體育’, ‘數(shù)據(jù)分析’): 174
  • (‘互聯(lián)網(wǎng)’, ‘數(shù)據(jù)分析’): 143
  • (‘數(shù)據(jù)分析’, ‘生活’): 162
  • (‘數(shù)據(jù)分析’, ‘金融’): 104
  • (‘數(shù)據(jù)分析’, ‘美食’): 108
  • (‘投資’, ‘數(shù)據(jù)分析’): 143
  • (‘健身’, ‘數(shù)據(jù)分析’): 164
  • (‘數(shù)據(jù)分析’, ‘文學(xué)’): 180
  • (‘數(shù)據(jù)分析’, ‘電影’): 186
  • (‘攝影’, ‘數(shù)據(jù)分析’): 187
  • (‘數(shù)據(jù)分析’, ‘職場(chǎng)’): 198
  • (‘數(shù)據(jù)分析’, ‘職業(yè)發(fā)展’, ‘職場(chǎng)’): 149
  • (‘心理學(xué)’, ‘數(shù)據(jù)分析’): 239
  • (‘心理學(xué)’, ‘數(shù)據(jù)分析’, ‘職業(yè)發(fā)展’): 101
  • (‘數(shù)據(jù)分析’, ‘自然科學(xué)’): 327
  • (‘數(shù)據(jù)分析’, ‘職業(yè)發(fā)展’, ‘自然科學(xué)’): 163
  • (‘數(shù)據(jù)分析’, ‘職業(yè)發(fā)展’): 352
  • (‘體育’, ‘數(shù)據(jù)分析’, ‘自然科學(xué)’): 104
  • (‘數(shù)據(jù)分析’, ‘職業(yè)發(fā)展’, ‘職場(chǎng)’): 149

從中可以看到,用戶(hù)在關(guān)注“數(shù)據(jù)分析”這一話(huà)題的同時(shí),還會(huì)關(guān)注其他跨領(lǐng)域的話(huà)題,跟工作相關(guān)的話(huà)題有職場(chǎng)發(fā)展、商業(yè)、心理學(xué)、金融、投資等,偏生活休閑的話(huà)題有美食、健身、生活、文學(xué)、體育等。

其他具有代表性的話(huà)題頻繁項(xiàng)集有,感興趣的小伙伴可以解讀一下:

  • (‘化學(xué)’, ‘地理學(xué)’, ‘天文學(xué)’, ‘生物學(xué)’, ‘職場(chǎng)’, ‘自然科學(xué)’): 118
  • (‘化學(xué)’, ‘天文學(xué)’, ‘物理學(xué)’, ‘生物學(xué)’, ‘職業(yè)發(fā)展’, ‘職場(chǎng)’, ‘自然科學(xué)’): 119
  • (‘時(shí)尚’, ‘演藝明星’, ‘電影’, ‘職業(yè)發(fā)展’, ‘職場(chǎng)’): 110
  • (‘時(shí)尚’, ‘服飾搭配’, ‘演藝明星’, ‘職業(yè)發(fā)展’, ‘職場(chǎng)’): 125
  • (‘化學(xué)’, ‘歷史’, ‘地理學(xué)’, ‘電視劇’, ‘職業(yè)發(fā)展’, ‘職場(chǎng)’, ‘裝修’): 120
  • (‘歷史’, ‘文學(xué)’, ‘電影’, ‘社會(huì)心理學(xué)’, ‘美食’, ‘職業(yè)發(fā)展’, ‘自然科學(xué)’): 129
  • (‘心理學(xué)’, ‘文學(xué)’, ‘社會(huì)心理學(xué)’, ‘美食’, ‘職業(yè)發(fā)展’): 348
  • (‘土木工程’, ‘工程學(xué)’, ‘投資’, ‘機(jī)械’, ‘烹飪’, ‘經(jīng)濟(jì)’, ‘職業(yè)發(fā)展’, ‘職場(chǎng)’, ‘自然科學(xué)’, ‘裝修’): 443

b. 話(huà)題關(guān)聯(lián)規(guī)則挖掘

關(guān)聯(lián)規(guī)則用于發(fā)現(xiàn)?if -> then(([A,B] -> [C]))這樣的規(guī)則,并可以給出這條規(guī)則的可信度?;谶@些關(guān)聯(lián)規(guī)則,我們就可以了解到“數(shù)據(jù)分析”相關(guān)的知乎在喜歡XXX話(huà)題的情況下,還會(huì)關(guān)注哪(個(gè))些話(huà)題,在內(nèi)容創(chuàng)作時(shí)可以做出預(yù)測(cè)。

返回的關(guān)聯(lián)規(guī)則數(shù)以萬(wàn)計(jì),筆者僅選取的置信度(confidence_threshold)閾值為1.0且具有一定趣味性的話(huà)題關(guān)聯(lián)規(guī)則:

  • (‘時(shí)尚’, ‘演藝明星’, ‘電影’)?–>?((‘職業(yè)發(fā)展’, ‘職場(chǎng)’), 1.0)
  • (‘地理學(xué)’, ‘天文學(xué)’, ‘生物學(xué)’, ‘職場(chǎng)’, ‘自然科學(xué)’)?–> ((‘物理學(xué)’, ‘職業(yè)發(fā)展’), 1.0)
  • (‘交通運(yùn)輸’, ‘建筑’, ‘電氣工程’, ‘職業(yè)發(fā)展’, ‘職場(chǎng)’)?–>((‘土木工程’, ‘工程學(xué)’, ‘航空航天’), 1.0)
  • (‘數(shù)碼產(chǎn)品’, ‘職場(chǎng)’, ‘高等教育’)?–>((‘攝影器材’, ‘職業(yè)發(fā)展’), 1.0)
  • (‘流行音樂(lè)’, ‘演藝明星’, ‘音樂(lè)’)?–>?((‘職業(yè)發(fā)展’, ‘職場(chǎng)’), 1.0)
  • (‘旅行’, ‘演藝明星’, ‘電影’, ‘音樂(lè)’)?–>?((‘職業(yè)發(fā)展’, ‘職場(chǎng)’), 1.0)
  • (‘流行音樂(lè)’, ‘演藝明星’, ‘社會(huì)心理學(xué)’, ‘音樂(lè)’)?–>((‘職業(yè)發(fā)展’, ‘職場(chǎng)’), 1.0)
  • (‘地理學(xué)’,’手機(jī)游戲’,’文學(xué)’,’流行音樂(lè)’, ‘經(jīng)濟(jì)’, ‘航空航天’)?–>((‘健身’, ‘歷史’, ‘土木工程’, ‘工程學(xué)’, ‘攝影’, ‘機(jī)械’, ‘自然科學(xué)’, ‘裝修’, ‘財(cái)務(wù)’), 1.0)

結(jié)果有了,那么我們?cè)撊绾谓庾x上述結(jié)果呢?

舉個(gè)例子,比如示例的最后一條,可以這樣理解:在這25W+用戶(hù)中,在支持度為100的前提下,所有同時(shí)關(guān)注了’地理學(xué)’、’手機(jī)游戲’、’文學(xué)’、’流行音樂(lè)’、 ‘經(jīng)濟(jì)’、 ‘航空航天’等話(huà)題的用戶(hù),他們有100%的可能性會(huì)同時(shí)關(guān)注’健身’、 ‘歷史’、 ‘土木工程’、’工程學(xué)’、’攝影’、 ‘機(jī)械’、’自然科學(xué)’、’裝修’、’財(cái)務(wù)’等話(huà)題。

那么,發(fā)現(xiàn)這些話(huà)題關(guān)聯(lián)規(guī)律有什么實(shí)際意義呢?

3)話(huà)題關(guān)聯(lián)度的意義

a. 用于發(fā)現(xiàn)潛在需求當(dāng)我們?cè)跒g覽器中輸入”social listening”時(shí),瀏覽器自動(dòng)彈出如”social listening?社會(huì)化營(yíng)銷(xiāo)”,”social listening?文本挖掘”等備選記錄,我們每每都會(huì)感嘆瀏覽器的智能,其實(shí)這里的奧秘就是頻繁項(xiàng)集。

也就是說(shuō),在大量的用戶(hù)搜索記錄中,”social listening”和”社會(huì)化營(yíng)銷(xiāo)”、”social listening”和”文本挖掘”共同出現(xiàn)在了大多數(shù)的搜索記錄中。同理,”社會(huì)化營(yíng)銷(xiāo)”和”文本挖掘”也頻繁的共同出現(xiàn)在搜索記錄中。

無(wú)論是基于搜索的共現(xiàn)詞還是基于話(huà)題tag的共現(xiàn)詞,都能在一定程度上挖掘出用戶(hù)的(潛在)需求。

b. 基于話(huà)題發(fā)現(xiàn)熱點(diǎn)信息

大量頻繁出現(xiàn)的話(huà)題很有可能是內(nèi)涵相近的內(nèi)容,因而話(huà)題頻繁集挖掘在某種程度上也就是話(huà)題聚類(lèi),聚類(lèi)成員數(shù)較多的類(lèi)別也就是熱門(mén)話(huà)題。

c. 用于制定內(nèi)容營(yíng)銷(xiāo)策略

如果筆者要寫(xiě)數(shù)據(jù)分析相關(guān)的文章,哪怕再硬、再干的文章,如果不結(jié)合案例或者場(chǎng)景來(lái)寫(xiě),恐怕也不會(huì)有讀者愿意看,這時(shí)候就需要加入些“軟”一些的ingredients了。比如筆者之前的拙作(《從3500種中西藥品的說(shuō)明書(shū)中發(fā)現(xiàn):中藥名稱(chēng)愛(ài)用“精、靈、寶”》、《用文本挖掘剖析近5萬(wàn)首<全唐詩(shī)>》、《【Social listening實(shí)操】從社交媒體傳播和文本挖掘角度解讀<歡樂(lè)頌2>》等),正是加入了一些“軟”的元素(即趣味性的分析背景,這里就是貼近現(xiàn)實(shí)生活的話(huà)題),才得到了可觀(guān)的閱讀量和互動(dòng)量。

上述話(huà)題關(guān)聯(lián)度的挖掘在數(shù)量上還不夠精確和直觀(guān),在本節(jié)剩下的兩個(gè)部分將對(duì)關(guān)聯(lián)度進(jìn)行數(shù)值化度量和可視化呈現(xiàn)。

(3)用Word2vec量化話(huà)題之間的關(guān)聯(lián)性

用戶(hù)一般會(huì)關(guān)注多個(gè)話(huà)題,采集下來(lái)后,話(huà)題標(biāo)簽之間是半角逗號(hào)區(qū)隔,經(jīng)切分后就形成了一系列的字符串list([‘交易所’,’股票’,’文學(xué)’,’張佳瑋(人物)’,’伊萬(wàn)卡·川普(Ivanka_Trump)’,’閱讀’,’京東’,’清華大學(xué)’,’經(jīng)濟(jì)學(xué)’]),可采用Word2vec進(jìn)行挖掘。Word2ve可以挖掘話(huà)題之間的關(guān)聯(lián)度、共現(xiàn)關(guān)系,不僅能夠挖掘出深層次的詞匯共現(xiàn)關(guān)系,而且還能量化出這種關(guān)聯(lián)關(guān)系。

1)相似話(huà)題識(shí)別

出現(xiàn)“數(shù)據(jù)分析”這一話(huà)題的情況下,在其附近最有可能出現(xiàn)的其他話(huà)題按照關(guān)聯(lián)度依次是:

根據(jù)上述結(jié)果,還是比較符合直覺(jué)的:

  • 在體育界,數(shù)據(jù)分析技術(shù)變得越來(lái)越重要,或者是從事數(shù)據(jù)分析的用戶(hù)正值大好青春,愛(ài)好體育
  • 互聯(lián)網(wǎng)產(chǎn)品目前對(duì)數(shù)據(jù)分析這一技能的要求越高,以數(shù)據(jù)洞察驅(qū)動(dòng)產(chǎn)品設(shè)計(jì)的理念深入人心
  • 寬客是指一群靠數(shù)學(xué)模型分析金融市場(chǎng)的物理學(xué)家和數(shù)學(xué)家,他們相信數(shù)學(xué)的精確性是分析最復(fù)雜的人類(lèi)活動(dòng)的基礎(chǔ),還曾用分析神經(jīng)系統(tǒng)的數(shù)學(xué)技巧來(lái)賺錢(qián)

……

給定上下文話(huà)題(頭部和尾部的話(huà)題)作為輸入,獲得中間話(huà)題的概率分布:

對(duì)于上述結(jié)果,可以這樣理解:最開(kāi)始關(guān)注“NLP”和最后關(guān)注“數(shù)據(jù)挖掘”話(huà)題的用戶(hù),在中間還最有可能關(guān)注“數(shù)據(jù)挖掘算法工程師”、“大數(shù)據(jù)處理”、“shell_腳本”等話(huà)題,不過(guò)它們的概率比較小。

下面,試著“揪出”、“輿情”、“數(shù)據(jù)挖掘?”、“社會(huì)化營(yíng)銷(xiāo)”、“商業(yè)”、“文本挖掘”、“social_listening ”、“管理咨詢(xún)”?、“NLP”等話(huà)題中的“異類(lèi)”。

結(jié)果是’輿情’,筆者推測(cè)其差異大概反映在場(chǎng)景上?— 它主要的場(chǎng)景是在政務(wù)領(lǐng)域,很多時(shí)候是簡(jiǎn)單的數(shù)據(jù)匯總統(tǒng)計(jì),缺乏對(duì)數(shù)據(jù)的深度提煉和對(duì)商業(yè)場(chǎng)景的貼合。

直接比較話(huà)題之間的相似度,代碼和結(jié)果如下:

  • ‘數(shù)據(jù)分析’和’機(jī)器學(xué)習(xí)’之間的話(huà)題相關(guān)度為:0.5158830285072327;
  • ‘自然語(yǔ)言處理’和’文本挖掘’之間的話(huà)題相關(guān)度為:0.30275818705558777;
  • ‘social_listening’和’市場(chǎng)營(yíng)銷(xiāo)’之間的話(huà)題相關(guān)度為:0.2506273090839386;
  • ‘排球’和’管理咨詢(xún)’之間的話(huà)題相關(guān)度為:0.006412103306502104。

上述結(jié)果不用做過(guò)多的解讀,非常符合當(dāng)下的實(shí)際。

上面談到的是話(huà)題共現(xiàn)的量化,緊接著,我們?cè)龠M(jìn)行話(huà)題共現(xiàn)的可視化操作。

2)話(huà)題關(guān)聯(lián)可視化呈現(xiàn)

筆者基于bokeh來(lái)繪制話(huà)題關(guān)聯(lián)圖,共現(xiàn)頻率較高的話(huà)題將會(huì)緊挨在一起。

該可視話(huà)圖可以使用鼠標(biāo)進(jìn)行拖動(dòng)以及放大、縮小等操作。

上面的圖因?yàn)樽煮w太小且緊湊,顯示不清晰,試著放大展示其中部分話(huà)題區(qū)域:

上面的紅圈中,“私房攝影”、“區(qū)域經(jīng)濟(jì)學(xué)”、“航空”、“心花路放(電影)”、“iPhone”、“樂(lè)高(LEGO)”、“Facebook”、“騰訊_QQ”、“經(jīng)驗(yàn)”、“成長(zhǎng)”、“行為經(jīng)濟(jì)學(xué)”等話(huà)題緊挨在一起,表示在這25W+數(shù)據(jù)分析相關(guān)的用戶(hù)關(guān)注話(huà)題中,這些話(huà)題經(jīng)常一起出現(xiàn)的頻率較高。

對(duì)于上述結(jié)果,筆者目前還沒(méi)有想到比較好的解釋。在這里,筆者對(duì)“興趣”進(jìn)行深入一點(diǎn)的探討:

“興趣”是指?jìng)€(gè)人從心理上對(duì)特定的“事物”、“活動(dòng)”以及“人為對(duì)象”所產(chǎn)生的帶有傾向性、選擇性的態(tài)度、情緒、喜歡的想法。興趣是以需要為基礎(chǔ)產(chǎn)生的。需要有精神需要和物質(zhì)需要,興趣基于精神需要(如對(duì)科學(xué)、藝術(shù)和文化知識(shí)等)。人們?nèi)魧?duì)某種事物或活動(dòng)有需要,就會(huì)去接觸、觀(guān)察和從事這種事物的研究或參與這種活動(dòng)。

筆者認(rèn)為關(guān)注的話(huà)題代表了用戶(hù)的閱讀興趣,而閱讀興趣這種特殊的興趣愛(ài)好能在某種程度上反映出用戶(hù)的某些心理特征。而這些看似“風(fēng)馬牛不相及”的關(guān)注話(huà)題,更能反映出用戶(hù)比較復(fù)雜的心理特點(diǎn)。至于做何種分析比較恰當(dāng),留給感興趣的熱心讀者,歡迎在后臺(tái)給我留言~

3)話(huà)題間的“六度分隔”

下面,根據(jù)話(huà)題間的共現(xiàn)相關(guān)性,找出知乎“數(shù)據(jù)分析”相關(guān)用戶(hù)關(guān)注話(huà)題集合中的任意兩個(gè)話(huà)題之間的最短關(guān)系,也算是六度分隔理論的一種實(shí)踐。

  • 攝影–>投資–>足球
  • 數(shù)據(jù)分析–>體育–>職業(yè)發(fā)展–>投資–>足球
  • 數(shù)據(jù)分析–>蔬菜沙拉–>櫻桃小丸子–>獨(dú)身主義–>馮薪朵–>人間失格(書(shū)籍)
  • 金融學(xué)–>黑客_(Hacker)–>計(jì)算機(jī)網(wǎng)絡(luò)–>數(shù)學(xué)–>足球–>服飾–>閱讀分享

這部分不做解釋?zhuān)艚o讀者來(lái)操作,歡迎在評(píng)論區(qū)寫(xiě)下你的分析,我們一起探討~

好了,上面是話(huà)題部分的分析結(jié)果,下次分享的內(nèi)容將是對(duì)16W+數(shù)據(jù)分析相關(guān)問(wèn)題的內(nèi)容分析,內(nèi)容更精彩,敬請(qǐng)期待~

#專(zhuān)欄作家

蘇格蘭折耳喵(微信公眾號(hào):Social Listening與文本挖掘),人人都是產(chǎn)品經(jīng)理專(zhuān)欄作家,數(shù)據(jù)PM一只,擅長(zhǎng)數(shù)據(jù)分析和可視化表達(dá),熱衷于用數(shù)據(jù)發(fā)現(xiàn)洞察,指導(dǎo)實(shí)踐。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來(lái)自Unsplash,基于CC0協(xié)議

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 大哥,能給原碼和數(shù)據(jù)集嗎

    來(lái)自遼寧 回復(fù)
  2. 寫(xiě)得好啊

    回復(fù)