我從騰訊那“偷 了”3000萬QQ用戶數(shù)據(jù),出了份很有趣的獨家報告!
兩周前,做的一個項目需要模擬一批用戶評價數(shù)據(jù),如果想讓數(shù)據(jù)看著真實點,那就得使用隨機的用戶昵稱和頭像啊。要是頭像或者昵稱全都差不多,那別人一看就看出來這是做的數(shù)據(jù)了。
于是乎我就寫了個從我QQ空間開始的蜘蛛網(wǎng)式的爬蟲程序,程序斷斷續(xù)續(xù)的運行了兩周??偣才赖搅蓑v訊3000萬QQ數(shù)據(jù),其中有300萬包含用戶(QQ號,昵稱,空間名稱,會員級別,頭像,最新一條說說內(nèi)容,最新說說的發(fā)表時間,空間簡介,性別,生日,所在省份,城市,婚姻狀況)的詳細數(shù)據(jù)。
目前已經(jīng)爬到我的第7圈好友(depth=7)共3000萬數(shù)據(jù),目前的瓶頸在家里的網(wǎng)速和電腦的配置上。 最快的時候爬取速度達到一天500W新Q數(shù)據(jù)。
沒圖,我說個毛線啊!
目前數(shù)據(jù)量為2G左右。
再看看,我根據(jù)這份數(shù)據(jù)生成的一些有趣的統(tǒng)計圖(數(shù)據(jù)量太大了一次加載到內(nèi)存中直接報內(nèi)存不夠了,所以下面的統(tǒng)計數(shù)據(jù)只取了depth值小數(shù)據(jù)較完整約80W的數(shù)據(jù)):
內(nèi)存已經(jīng)爆了,不能怪我。 誰贊助臺服務器吧~~
大家一般都在啥時候發(fā)說說呢?
從圖中看出一天最冷門的時候是凌晨4點,這時全國正在睡覺的人最多。 大家最亢奮的是晚上10點到11點,人們都喜歡睡前看看別人的空間,發(fā)條說說。中午12點左右也有一波小高峰
一會我再統(tǒng)計張中國人習慣幾點起床,幾點吃飯,幾點睡覺的圖吧
中國人都喜歡在幾月生小孩呢?
最熱門的是1月份和10月份,最冷門的是4月份。10月份生小孩的多好理解,一年忙差不多了,天氣也不冷不熱正是生小孩的好時候。 但1月份最高且和2月落差很大有點不好理解,那么冷的天生不怕凍嗎? 我估計是1月份也快過年了,以前沒聚一起的好不容易聚一起了,就容易沖動,沖動就啪啪啪。 4月份生日的最少也好理解,中國人不喜歡4這個數(shù)字唄。 大數(shù)據(jù)有意思吧?。?我覺得太好玩了,后面還有很多呢。
這是我目前爬取的用戶所在地分布
你能猜出我是哪的了嗎?前四名分別為:廣東,湖南,四川,江蘇。 沒錯,我就是湖南的! 湖南人在廣東打工的超級多,這也能理解為什么廣東排名第一了。江蘇是我上學的地方,有點琢磨不透的是四川和我非情非故的居然排第3名,我的朋友們,你們是誰播的種?站出來! 還有一種可能,四川人交際能力全國第一,我平時在重慶小面吃飯,四川人確實特別,說話語速那個快啊,聲調那個高啊。受不了!
數(shù)據(jù)人群的年齡分布
一不小心就暴漏了我的年齡,沒錯。我就是那個最高值的1990年;從目前的數(shù)據(jù)來看,無論是分布地區(qū)以及年齡階段與我的關聯(lián)還非常大,隨著數(shù)據(jù)量的不斷增加這種關聯(lián)會逐漸變小,統(tǒng)計圖也會逐漸接近全國用戶的真實情況。真想弄幾臺服務器分布式搞起,估計一周就能爬上億的簡單數(shù)據(jù)。 單靠我的筆記本和家里超爛的網(wǎng)速達到這個目標還很遠。
數(shù)據(jù)人群性別分布
男比女足足多了23%的人數(shù),我分析認為實際差距應該是不大的,但女生在設置QQ空間訪問權限時普遍要比男生的高。所以我爬取的數(shù)據(jù)中男生居多。
下面系列圖是根據(jù)一些“關鍵字”在說說中出現(xiàn)的頻率統(tǒng)計出來的,相當有意思。
圖說股市
在知乎“能利用爬蟲技術做到哪些很酷很有趣很有用的事情?” 有一個google實習的哥們@Emily L爬了400億條tweet也做了很多有趣的分,其中提到一篇關于利用twitter上人的心情來預測股市的論文()很有意思。另附我在該問題下的答案“用爬蟲監(jiān)測她(他)的知乎動態(tài)”,僅做技術玩樂,求別再噴我猥瑣了。
如果當我們擁有海量的QQ空間最新說說,和sina微博數(shù)據(jù)。我想,用它們來做一些股市或者其它方面的分析預測是可行的,準確度應該也是非常高的。我接下來可能會考慮去做這件有趣的事情。
將股票中的關鍵字做海量數(shù)據(jù)分析,比如會得出當日討論股票排行榜。進而能得到海量討論股票的用戶,再通過市場的實際反饋找出股票上漲及下跌的正相關因子,再對這些海量用戶進行分析計算得出最靠譜股票推薦大神排行榜。對這些用戶分級,分優(yōu)先度及抓取密度來拿數(shù)據(jù)。用這些數(shù)據(jù)分析出哪些是靠譜的股票肯定靠譜。
群眾討論最多的明星排行榜,還是很靠譜的。
另附我抓的明星QQ號吧,純屬娛樂,自辯真假。有些空間確實有很多生活私照。
張杰QQ:419998
花千骨的趙麗穎QQ:427794
謝娜QQ:500746
楊冪QQ:456773
周杰倫QQ:332661
最為用戶喜愛的手機品牌
人們最喜歡談論的互聯(lián)網(wǎng)公司,阿里之所以這么低估計是大家都喜歡叫它淘寶或者天貓吧。 取這么多名字,自討苦吃。
?QQ空間中討論的最為頻繁的社交平臺排行榜。
生活的統(tǒng)計圖
愛>恨; 開心>傷心; 笑聲>嘆氣聲; 吃貨很多; 誰特么說中國不幸福了,這滿滿的都是正能量數(shù)據(jù)啊。
好了,其實還可以做很多其它的分析。如果大家有什么有趣的數(shù)據(jù)分析想知道的,那就給我留言吧。
技術不多說了,程序不難,多線程數(shù)據(jù)庫操作卻是把我搞苦了。還好,現(xiàn)在程序差不多穩(wěn)定了。過程也是很有意思的,有空我再寫個程序升級過程中的那些趣事吧。我覺得一個美妙的程序一定是高度模擬現(xiàn)實的,就像飛機模仿蜻蜓,雷達模仿蝙蝠一樣。 這次的程序設計就是模擬的工廠的生產(chǎn)線。附個設計圖吧。
作者:hi@wuxinsheng.com
來源:博客園
原文地址:http://www.cnblogs.com/cinser/p/4656386.html
看到第二段就懶得看了,出生月份表現(xiàn)出幾月份生小孩?人們都是幾月份啪啪啪就當場生下來嗎?1月份和10月份出生人口最多,那應該往前推9~10個月才是人們“生小孩”活動的最高峰。
樓主好厲害!
樓主,他們很多空間都是需要訪問權限的,請問你的爬蟲是怎么繞過這些權限的呀?
求問爬數(shù)據(jù)的方法
能不能分析一下玩LOL的人數(shù) 性別 年齡 段位 等一些信息呢
求問大神,這些數(shù)據(jù)要怎么爬啊 ?? ??
明顯的一篇軟文貼
有誰知道樓主是用什么工具做的統(tǒng)計圖啊?
你們就看不出來這是一篇營銷貼嗎!
你QQ多少啊,能交流一下嗎?
現(xiàn)在很多女性空間都要有訪問權限的,這些也能爬?
我居然在第一個圖里看到了十年長白!
眼睛要瞎了臥槽(#?Д?)
盜墓黨無處不在。。。關注點啊喂
不過這個技能好棒!
好想get一下(●—●)
求源碼,哈哈!
求爬蟲源碼
只是對數(shù)據(jù)分析,這個不太明白,希望懂得前輩能指點一下,我的觀點錯誤,或是一起討論一下.謝謝大家
? 一編輯 原來的話都沒了, 原話: 樓主是1990的,好友也是接近1990這個年齡段的,以此輻射出去的好友,是否也都是這個上下的.用這份數(shù)據(jù)來統(tǒng)計,表現(xiàn)中國人的 行為,特性 是否不太準確.
太牛了,我也想學這門神技,請問小白學習這種技能該怎么起步
臥槽 這個分析牛逼了。。。。。。。。