我從騰訊那“偷 了”3000萬QQ用戶數(shù)據(jù),出了份很有趣的獨家報告!

18 評論 29109 瀏覽 30 收藏 10 分鐘

兩周前,做的一個項目需要模擬一批用戶評價數(shù)據(jù),如果想讓數(shù)據(jù)看著真實點,那就得使用隨機的用戶昵稱和頭像啊。要是頭像或者昵稱全都差不多,那別人一看就看出來這是做的數(shù)據(jù)了。

于是乎我就寫了個從我QQ空間開始的蜘蛛網(wǎng)式的爬蟲程序,程序斷斷續(xù)續(xù)的運行了兩周??偣才赖搅蓑v訊3000萬QQ數(shù)據(jù),其中有300萬包含用戶(QQ號,昵稱,空間名稱,會員級別,頭像,最新一條說說內(nèi)容,最新說說的發(fā)表時間,空間簡介,性別,生日,所在省份,城市,婚姻狀況)的詳細數(shù)據(jù)。

目前已經(jīng)爬到我的第7圈好友(depth=7)共3000萬數(shù)據(jù),目前的瓶頸在家里的網(wǎng)速和電腦的配置上。 最快的時候爬取速度達到一天500W新Q數(shù)據(jù)。

沒圖,我說個毛線啊!

目前數(shù)據(jù)量為2G左右。

1f87bddb7eab9d3dde5115a398e90b9b

再看看,我根據(jù)這份數(shù)據(jù)生成的一些有趣的統(tǒng)計圖(數(shù)據(jù)量太大了一次加載到內(nèi)存中直接報內(nèi)存不夠了,所以下面的統(tǒng)計數(shù)據(jù)只取了depth值小數(shù)據(jù)較完整約80W的數(shù)據(jù)):

內(nèi)存已經(jīng)爆了,不能怪我。 誰贊助臺服務器吧~~

5dc30cb7b4e9987436fb134d3b61ea78

大家一般都在啥時候發(fā)說說呢?

從圖中看出一天最冷門的時候是凌晨4點,這時全國正在睡覺的人最多。 大家最亢奮的是晚上10點到11點,人們都喜歡睡前看看別人的空間,發(fā)條說說。中午12點左右也有一波小高峰

一會我再統(tǒng)計張中國人習慣幾點起床,幾點吃飯,幾點睡覺的圖吧

f11367cd8eb5c33bdbd9a1f249e2a710

中國人都喜歡在幾月生小孩呢?

最熱門的是1月份和10月份,最冷門的是4月份。10月份生小孩的多好理解,一年忙差不多了,天氣也不冷不熱正是生小孩的好時候。 但1月份最高且和2月落差很大有點不好理解,那么冷的天生不怕凍嗎? 我估計是1月份也快過年了,以前沒聚一起的好不容易聚一起了,就容易沖動,沖動就啪啪啪。 4月份生日的最少也好理解,中國人不喜歡4這個數(shù)字唄。 大數(shù)據(jù)有意思吧?。?我覺得太好玩了,后面還有很多呢。

bda64a70a9c0e4b5e4c18c76177b67dc

這是我目前爬取的用戶所在地分布

你能猜出我是哪的了嗎?前四名分別為:廣東,湖南,四川,江蘇。 沒錯,我就是湖南的! 湖南人在廣東打工的超級多,這也能理解為什么廣東排名第一了。江蘇是我上學的地方,有點琢磨不透的是四川和我非情非故的居然排第3名,我的朋友們,你們是誰播的種?站出來! 還有一種可能,四川人交際能力全國第一,我平時在重慶小面吃飯,四川人確實特別,說話語速那個快啊,聲調那個高啊。受不了!

a2cc0e95784d1108ec59afac1944d62b

數(shù)據(jù)人群的年齡分布

一不小心就暴漏了我的年齡,沒錯。我就是那個最高值的1990年;從目前的數(shù)據(jù)來看,無論是分布地區(qū)以及年齡階段與我的關聯(lián)還非常大,隨著數(shù)據(jù)量的不斷增加這種關聯(lián)會逐漸變小,統(tǒng)計圖也會逐漸接近全國用戶的真實情況。真想弄幾臺服務器分布式搞起,估計一周就能爬上億的簡單數(shù)據(jù)。 單靠我的筆記本和家里超爛的網(wǎng)速達到這個目標還很遠。

d80eb483302aba03d699b0d4adf4cab5

數(shù)據(jù)人群性別分布

男比女足足多了23%的人數(shù),我分析認為實際差距應該是不大的,但女生在設置QQ空間訪問權限時普遍要比男生的高。所以我爬取的數(shù)據(jù)中男生居多。

a2f29fd0a877e68eaeb5927257c8225a

下面系列圖是根據(jù)一些“關鍵字”在說說中出現(xiàn)的頻率統(tǒng)計出來的,相當有意思。

圖說股市

在知乎“能利用爬蟲技術做到哪些很酷很有趣很有用的事情?” 有一個google實習的哥們@Emily L爬了400億條tweet也做了很多有趣的分,其中提到一篇關于利用twitter上人的心情來預測股市的論文()很有意思。另附我在該問題下的答案“用爬蟲監(jiān)測她(他)的知乎動態(tài)”,僅做技術玩樂,求別再噴我猥瑣了。

如果當我們擁有海量的QQ空間最新說說,和sina微博數(shù)據(jù)。我想,用它們來做一些股市或者其它方面的分析預測是可行的,準確度應該也是非常高的。我接下來可能會考慮去做這件有趣的事情。

將股票中的關鍵字做海量數(shù)據(jù)分析,比如會得出當日討論股票排行榜。進而能得到海量討論股票的用戶,再通過市場的實際反饋找出股票上漲及下跌的正相關因子,再對這些海量用戶進行分析計算得出最靠譜股票推薦大神排行榜。對這些用戶分級,分優(yōu)先度及抓取密度來拿數(shù)據(jù)。用這些數(shù)據(jù)分析出哪些是靠譜的股票肯定靠譜。

09dcc3abe4755dfb2b77d8c7a2aba10b

群眾討論最多的明星排行榜,還是很靠譜的。

另附我抓的明星QQ號吧,純屬娛樂,自辯真假。有些空間確實有很多生活私照。

張杰QQ:419998

花千骨的趙麗穎QQ:427794

謝娜QQ:500746

楊冪QQ:456773

周杰倫QQ:332661

6ced1b9b8c6f7f88232591e7315a4ab6

最為用戶喜愛的手機品牌

4ff8ecb4c6d0ccc52b4811a834d13926

人們最喜歡談論的互聯(lián)網(wǎng)公司,阿里之所以這么低估計是大家都喜歡叫它淘寶或者天貓吧。 取這么多名字,自討苦吃。

db9e568ff989dc8b777c7bbfca86738d

?QQ空間中討論的最為頻繁的社交平臺排行榜。

246fb3d2cc5e90af253cd3ec168ebafd

生活的統(tǒng)計圖

愛>恨; 開心>傷心; 笑聲>嘆氣聲; 吃貨很多; 誰特么說中國不幸福了,這滿滿的都是正能量數(shù)據(jù)啊。

e88dd93028569e54d6ac8ae8855e258a

好了,其實還可以做很多其它的分析。如果大家有什么有趣的數(shù)據(jù)分析想知道的,那就給我留言吧。

技術不多說了,程序不難,多線程數(shù)據(jù)庫操作卻是把我搞苦了。還好,現(xiàn)在程序差不多穩(wěn)定了。過程也是很有意思的,有空我再寫個程序升級過程中的那些趣事吧。我覺得一個美妙的程序一定是高度模擬現(xiàn)實的,就像飛機模仿蜻蜓,雷達模仿蝙蝠一樣。 這次的程序設計就是模擬的工廠的生產(chǎn)線。附個設計圖吧。

0c33f55ead328bd3b87735592f9254da

35e371272fc4d3caecfc627c2a61bc61

1a6930b67e11d79c5079c06a5e3829c8

 

作者:hi@wuxinsheng.com

來源:博客園

原文地址:http://www.cnblogs.com/cinser/p/4656386.html

更多精彩內(nèi)容,請關注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 看到第二段就懶得看了,出生月份表現(xiàn)出幾月份生小孩?人們都是幾月份啪啪啪就當場生下來嗎?1月份和10月份出生人口最多,那應該往前推9~10個月才是人們“生小孩”活動的最高峰。

    來自上海 回復
  2. :mrgreen: 樓主好厲害!

    來自重慶 回復
  3. 樓主,他們很多空間都是需要訪問權限的,請問你的爬蟲是怎么繞過這些權限的呀?

    來自重慶 回復
  4. 求問爬數(shù)據(jù)的方法

    來自廣東 回復
  5. 能不能分析一下玩LOL的人數(shù) 性別 年齡 段位 等一些信息呢

    來自上海 回復
  6. 求問大神,這些數(shù)據(jù)要怎么爬啊 ?? ??

    來自廣東 回復
  7. 明顯的一篇軟文貼

    來自廣西 回復
  8. 有誰知道樓主是用什么工具做的統(tǒng)計圖啊?

    來自福建 回復
  9. 你們就看不出來這是一篇營銷貼嗎!

    來自北京 回復
  10. 你QQ多少啊,能交流一下嗎?

    來自廣東 回復
  11. 現(xiàn)在很多女性空間都要有訪問權限的,這些也能爬?

    來自廣東 回復
  12. 我居然在第一個圖里看到了十年長白!
    眼睛要瞎了臥槽(#?Д?)
    盜墓黨無處不在。。。關注點啊喂
    不過這個技能好棒!
    好想get一下(●—●)

    來自江蘇 回復
  13. 求源碼,哈哈! :mrgreen:

    來自四川 回復
  14. 求爬蟲源碼

    來自浙江 回復
  15. 只是對數(shù)據(jù)分析,這個不太明白,希望懂得前輩能指點一下,我的觀點錯誤,或是一起討論一下.謝謝大家

    來自北京 回復
    1. ? 一編輯 原來的話都沒了, 原話: 樓主是1990的,好友也是接近1990這個年齡段的,以此輻射出去的好友,是否也都是這個上下的.用這份數(shù)據(jù)來統(tǒng)計,表現(xiàn)中國人的 行為,特性 是否不太準確.

      來自北京 回復
  16. 太牛了,我也想學這門神技,請問小白學習這種技能該怎么起步

    來自北京 回復
  17. 臥槽 這個分析牛逼了。。。。。。。。

    來自安徽 回復