大數(shù)據(jù)報告:知乎百萬用戶分析
本文作者以知乎300萬用戶個人資料為樣本,做出了簡單數(shù)據(jù)分析。enjoy~
最近用 python 爬蟲抓取了知乎用戶個人資料(公開信息),去重之后有300+萬條記錄,為了得到這些數(shù)據(jù),還不小心跑崩了一臺服務(wù)器…… 當(dāng)然主要是配置太低。
手頭有了數(shù)據(jù)也不能閑著,于是就有了這篇分析報告,這篇報告做了一些淺顯的數(shù)據(jù)分析,主要目的是練練手,大家看個熱鬧,高手勿笑。
- 數(shù)據(jù)量:3,289,329 人。
- 數(shù)據(jù)采集工具:分布式 python 爬蟲
- 分析工具:ElasticSearch + Kibana
- 分析角度包括:地理位置、男女比例、各類排名、所在高校、活躍程度等。
注意:
- 以下所有分析結(jié)果都基于我抓取到的這300萬用戶的個人信息,非權(quán)威分析,僅供參考。
- 數(shù)據(jù)抓取時間為2017年7月份,用戶數(shù)據(jù)會隨著時間推移而變化,所以該報告具有一定時效性。
- 知乎的用戶個人資料很大程度上是不完整的,因為用戶有權(quán)只填寫部分信息,所以后面分析的時候會篩掉對應(yīng)指標(biāo)為空的用戶。
下面讓我們看看知乎用戶分布中有哪些有趣的現(xiàn)象。
知乎的男女比例?
首先來看看知乎用戶的男女比例,以當(dāng)前樣本數(shù)據(jù)統(tǒng)計的結(jié)果接近 1:1,其中男生略多一些。(其實還有很大一部分性別不明的用戶,被我略掉了 ╮(╯▽╰)╭)
藍色為男生,紅色為女生。具體數(shù)據(jù)為:
- 男生:1,202,234 人,占 51.55%。
- 女生:1,129,874 人,占 48.45%。
知乎用戶都是哪里人?
再來看看全國(全球?)都有哪些地方的人在玩知乎:
由上圖可以看到,知乎用戶中一線城市用戶占較大的比重,北上廣深皆在詞云的中心位置(文字越大,比重越大)。我們再來看看具體的排名(前十名):
知乎用戶居住地前十名依次是:北京、上海、杭州、成都、南京、武漢、廣州、深圳、西安、重慶。
你可能發(fā)現(xiàn)了Y坐標(biāo)里每座城市的用戶數(shù)并不多,這是因為有大概260萬的知乎沒有填寫“居住地”這一欄~ 以下分析也有可能出現(xiàn)用戶沒有填寫某一欄信息的情況,我會把這些用戶忽略掉,以保證展示圖表的準(zhǔn)確性。
知乎的職業(yè)分布?
以下顯示知乎主流職業(yè),同樣根據(jù)知乎用戶個人信息里填寫的職業(yè)為準(zhǔn):
由上圖可以看到,知乎用戶中學(xué)生用戶占據(jù)多數(shù),其它的比如產(chǎn)品經(jīng)理、程序員、運營、HR數(shù)量也不少。我們看一下具體的排名(前十名):
由上圖可以看到,知乎用戶中“學(xué)生”的比重獨占鰲頭,我們把“學(xué)生”去掉,來看看正經(jīng)些的知乎職業(yè)排名:
去除學(xué)生后,知乎主流職業(yè)比重從大到小依次是(前十名):產(chǎn)品經(jīng)理、自由職業(yè)、程序員、工程師、設(shè)計師、騰訊、教師、人力資源(HR)、運營、律師??梢钥吹?,除了一些互聯(lián)網(wǎng)公司的常見職位外,教師和律師用戶在知乎中也占據(jù)不小的比重。
下面我們結(jié)合 性別 和 居住地 來分析一下知乎的主流職業(yè)。
知乎主流職業(yè)的性別分布:
上面這張餅圖的內(nèi)圈表示各主流職業(yè)在前十名中所占的比重,外圈表示該職業(yè)從業(yè)者中的男女比例,藍色為男性,紅色為女性。我們再用一張直方圖來表示:
同樣藍色代表男性,紅色代表女性,從左到右的職業(yè)在知乎中的數(shù)量依次下降。可以看到,知乎大部分主流職業(yè)中主要為男性占主導(dǎo)。前 10 名的主流職業(yè)中有 8 個職業(yè)的男性從業(yè)者比女性多,其中以 程序員 的男女比例差距最為懸殊(-_-|||),以 設(shè)計師 男女比例差距最小,看來設(shè)計師從業(yè)人員男女比例較為均衡。其它的,比如產(chǎn)品經(jīng)理、自由職業(yè)者、律師中,均為男性從業(yè)者多于女性。而前 10 名剩下的 2 個職業(yè)——教師、人力資源(HR)——女性從業(yè)者要多于男性,其中以 人力資源(HR) 男女比例差距最為懸殊,教師的男女比例雖不那么夸張,但女性也遠遠多于男性(也許是因為男性教師不怎么上知乎?)。
看完了知乎各職業(yè)的性別分布,我們再用一張熱力圖來觀察知乎主流職業(yè)(前五名)在各個地區(qū)的分布情況,顏色越深,代表該職業(yè)在該地區(qū)的人數(shù)越多:
這里我為了展示方便,去掉了產(chǎn)品經(jīng)理,你只需要知道產(chǎn)品經(jīng)理在各地人數(shù)都是最多的…… 不明白知乎上怎么這么多產(chǎn)品經(jīng)理,可能是為了方便宣傳他們的產(chǎn)品?
從上圖可以看出,知乎各主流職業(yè)大部分集中在北京和上海兩地,更準(zhǔn)確地說,大部分都集中在北京,但是人力資源(HR)是個例外,他們更多集中在上海。我們再來看看其他職業(yè),程序員分布最多的城市依次是:北京、上海、廣州、杭州、廈門。北京占得比重最大,簡直綠的發(fā)黑,看來北京是程序員的天堂?其中深圳沒有上榜,讓我很奇怪。設(shè)計師分布最多的城市依次是:北京、上海、杭州、深圳、武漢。設(shè)計師的地區(qū)分布比較平均,各個城市都有一定數(shù)量。
知乎的高校用戶
知乎中學(xué)生用戶占很大的比重,我們來看看他們都來自哪些學(xué)校!詞云中字體越大,表示所占比重越大。
我們再列出詳細的比重排名:
以上展示的結(jié)果不一定準(zhǔn)確,可能有很大一部分學(xué)生用戶沒有填寫自己的學(xué)校。僅從上圖可以看出,知乎活躍高校用戶從大到小依次是:浙江大學(xué)、武漢大學(xué)、華中科技大學(xué)、中山大學(xué)、北京大學(xué)、上海交通大學(xué)、復(fù)旦大學(xué)、南京大學(xué)、四川大學(xué)、清華大學(xué)。
既然分析到學(xué)校了,我們順便看看各高校的男女比例,嘿嘿。
發(fā)現(xiàn)一個有意思的現(xiàn)象,各高校大部分都是男生在玩知乎……
再看一下哪些高校在知乎獲得的贊數(shù)最多:
第一是同濟大學(xué),土木工程,恩,這是哪位大佬撐起來的;第二是華南理工大學(xué),軟件工程,這個我知道,輪子哥是皇家理工的嘛;第三,重慶第一工程尸培訓(xùn)基地,恩???這是什么鬼(黑人問號);繼續(xù)往后看,恩……??家里蹲大學(xué)????!還有一個蘭州大學(xué),牛肉面工藝專業(yè)???WHAT???。?/p>
知乎大佬都這么調(diào)皮嗎……
這個圖似乎不太準(zhǔn),大家忽略就好……
我們再來看看各地區(qū)有哪些高校是知乎重度用戶,顏色越深代表該學(xué)校的知乎用戶越多:
- 北京玩知乎最多的高校依次是:北京大學(xué)、北京郵電大學(xué)、中國傳媒大學(xué)、中國人民大學(xué)、清華大學(xué)。
- 上海玩知乎最多的高校依次是:上海交通大學(xué)、復(fù)旦大學(xué)、同濟大學(xué)、上海大學(xué)、上海財經(jīng)大學(xué)。
- 杭州玩知乎最多的高校依次是:浙江大學(xué)、浙江工業(yè)大學(xué)、杭州電子科技大學(xué)、浙江大學(xué),計算機科學(xué)、浙江大學(xué),軟件工程。浙江大學(xué)是重度用戶啊……
- 成都玩知乎最多的高校依次是:電子科技大學(xué)、四川大學(xué)、西南交通大學(xué)、電子科技大學(xué),軟件工程、四川師范大學(xué)。
- 廣州玩知乎最多的高校依次是:中山大學(xué)(SYSU)、華南理工大學(xué)(SCUT)、華南農(nóng)業(yè)大學(xué)(SCAU)、廣東外語外貿(mào)大學(xué)、廣東工業(yè)大學(xué)。
我們再來看一下知乎各高校用戶的活躍程度,按每個學(xué)校用戶回答問題的總數(shù)排名:
排名依次是:武漢大學(xué)、浙江大學(xué)、中山大學(xué)、華南理工大學(xué)、北京大學(xué)、華中科技大學(xué)、復(fù)旦大學(xué)、上海交通大學(xué)、西北農(nóng)林科技大學(xué)。
好了,高校分析告一段落,我們再來看看知乎用戶的各類排名。
知乎贊數(shù)最多的100位大V
下圖中詞云的字越大,表示收到的贊數(shù)越多:
我們再來一張直方圖,配合著看:
張佳瑋大大無可爭議的獲得第一名,360+萬贊,恐怖。其次是馬前卒、唐缺、vczh、肥肥貓、朱炫、Seasee Youl、ze ran、鬼木知、豆子。知乎獲贊總數(shù)前五名有兩位都是作家(張佳瑋和唐缺),看來作家在知乎回答問題獲贊方面還是很吃香,果然表達能力是觀點獲得認(rèn)可的一個重要支撐 。
知乎關(guān)注者最多的100位大V
下圖詞云的字越大,表示關(guān)注者越多,看看有沒有你熟悉的大V 呢?:
同樣我們配合著一張直方圖來看:
知乎關(guān)注人數(shù)最多的前10位大V依次是:張佳瑋、李開復(fù)、黃繼新、周源、張亮、張小北、李淼、朱炫、葛巾、田吉順。這些是知乎真正的大V,關(guān)注者數(shù)量極多。關(guān)注者最多的張佳瑋有137萬粉絲(抓取時),他的粉絲還在不斷上漲,到現(xiàn)在已經(jīng)有138萬粉絲。關(guān)注者最少田吉順也有57萬粉絲,輪子哥(vczh)稍微少一些,排在第11位。
知乎回答問題最多的100位大V
這些大V在知乎很活躍…… 下圖詞云文字越大,表示回答問題數(shù)量越多。
具體的排名為:
知乎回答問題數(shù)最多的10位大V從大到小依次為:vczh、李東、趙鋼、另一只襪子、四海之內(nèi)、M3小蘑菇、kun yu、白貓轉(zhuǎn)轉(zhuǎn)風(fēng)、yskin、肛里拉出個電鋸。微軟的工作貌似很閑,看輪子哥(vczh)整天刷知乎……
我們再來加上這幾位用戶在知乎的獲得的贊數(shù),看看“回答問題的數(shù)量”和“獲得的贊數(shù)”之間有沒有什么聯(lián)系:
由上圖我們可以粗略的得出結(jié)論,回答問題的數(shù)量和獲得贊數(shù)的關(guān)系沒有很大。上圖中只有 kun yu 和 vczh 回答問題的數(shù)量和獲贊數(shù)基本持平,榜單前十名的其它用戶獲得贊數(shù)雖然也不少,但和他們回答問題數(shù)量的排名比起來,還不在一個量級上。這從側(cè)面也說明了一個問題,回答問題的質(zhì)量更加重要,某些高質(zhì)量的會更容易吸引用戶點贊。
知乎參加live最多的100位大V
我們再來看一個有意思的統(tǒng)計,知乎參加 live 最多的100位用戶,以及他們最多參加過多少場 live。(live 是知乎推出的一種類似于直播的問答形式,大V開一場 live,分享他所在領(lǐng)域的知識,用戶買門票參與 live,是一種知識變現(xiàn)的方式)
再來看看他們最多參加過多少場 live:
最多的那個大V竟然參加過 1600+ 場 live,真的很有精力和金錢,哈哈。
尾聲
以上,便是以知乎300萬用戶個人資料為樣本,做出的簡單數(shù)據(jù)分析。大家覺得還可以挖掘哪些有用的信息呢?
喜歡我的分析的小伙伴可以點一個贊,或者等我的下一篇文章。接下來會發(fā)一篇爬蟲的源碼剖析,有時間的話會繼續(xù)抓取其它有用的數(shù)據(jù),做成數(shù)據(jù)報告發(fā)上來。另外我會嘗試下把這次抓到的數(shù)據(jù)做成功能集成到公眾號中,如果你有什么好玩的點子也可以推薦給我。
撒由那拉~ 下次再見~
作者:囈語_yiyu,個人博客:http://yangyingming.com
來源:http://www.jianshu.com/p/6815e9553aba
本文由 @囈語_yiyu 授權(quán)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。
你好,我是一名大四學(xué)生,最近在找產(chǎn)品方向?qū)嵙?xí),想做一篇知乎與百度知道的競品分析,不用于任何商業(yè)用途,僅僅是為了個人練習(xí),請問可以借用貴文的數(shù)據(jù)嗎?萬分感謝!
這個數(shù)據(jù)問題太明顯了,比如學(xué)校,知乎是不強制要求用戶標(biāo)注學(xué)校的,所以爬蟲抓到的,都是自愿標(biāo)注學(xué)校的用戶。盆友,駐馬店職業(yè)技術(shù)學(xué)院的同學(xué),是不喜歡吹噓自己學(xué)校的??傮w來說,數(shù)據(jù)價值挺低。
數(shù)據(jù)爬蟲獲得數(shù)據(jù)有和其他第三方數(shù)據(jù)比較嗎 全面嗎
產(chǎn)品經(jīng)理是為了廣泛吸取觀點么 ??
圖都是用什么做的啊?
用的 Kibana
產(chǎn)品經(jīng)理最多 ??
說到live還可以抓取下哪個大類的live參與的用戶數(shù)最多最吸金~哈哈~
我看到缺大了
點贊
馬前卒是同濟土木的
后來發(fā)現(xiàn)了 ??
圖表學(xué)習(xí)了 ??
知乎上最多的是產(chǎn)品經(jīng)理 ??