從騰訊“偷”到的3000萬(wàn)數(shù)據(jù),究竟要怎么看?

10 評(píng)論 4232 瀏覽 12 收藏 9 分鐘

今天看到了一篇文章:《我從騰訊那“偷了”3000萬(wàn)QQ用戶數(shù)據(jù),出了份很有趣的獨(dú)家報(bào)告!》,原作者寫了一個(gè)爬蟲(chóng),以自己為源頭抓取好友的QQ,并根據(jù)抓取到的QQ數(shù)據(jù),總結(jié)出了一份報(bào)告。

但是仔細(xì)閱讀后,感覺(jué)這份報(bào)告趣味有余但是分析不足,還只是停留在看圖說(shuō)話的階段,原作者還需要一個(gè)產(chǎn)品經(jīng)理!

此言一出,就被朋友甩來(lái)一句:“you can you up”

好吧,鑒于我沒(méi)有親自寫爬蟲(chóng)抓數(shù)據(jù),那么就用原文里的統(tǒng)計(jì)圖,試試看圖說(shuō)話吧,幫助原作者發(fā)現(xiàn)更多內(nèi)容。

活躍時(shí)間分布?

  • “夜貓子”比“早期的鳥(niǎo)”的數(shù)量還要多:凌晨1點(diǎn)的說(shuō)說(shuō)數(shù)量比早晨7點(diǎn)的多
  • 凌晨4點(diǎn),大多數(shù)人睡得正香,熬夜的人也幾乎要睡了,通宵的人也大概十分疲憊了
  • 大部分人的起床時(shí)間在6點(diǎn)到7點(diǎn)之間,因?yàn)樾甭首畲?/li>
  • 大部分人在8點(diǎn)后開(kāi)始工作/上課,因?yàn)?點(diǎn)前后的兩段時(shí)間的斜率變化十分明顯
  • 越是臨近中午,人們對(duì)工作越是會(huì)心不在焉。因?yàn)?點(diǎn)到12點(diǎn)之間的說(shuō)說(shuō)數(shù)量一直在增長(zhǎng)(還記得學(xué)生時(shí)代,上午最后一節(jié)課的最后10分鐘有多難熬嘛?)
  • 吃午飯時(shí)間玩手機(jī)刷空間,已經(jīng)是生活常態(tài)了吧?
  • 午飯之后有人午睡、有人散步、有人讀書、有人聊天,總之發(fā)說(shuō)說(shuō)的人少了
  • 當(dāng)然,也有人午飯后直接開(kāi)始了緊張的工作/學(xué)習(xí),持續(xù)到下午餓/下班的時(shí)候
  • 相比晚飯,人們吃午飯的時(shí)間更加集中。發(fā)布說(shuō)說(shuō)的數(shù)量從25000+到28000+的規(guī)模,午飯用了一個(gè)小時(shí)(11-12),晚飯用了兩個(gè)小時(shí)(17-19)
  • 22點(diǎn)的說(shuō)說(shuō)數(shù)量達(dá)到最大值,果然人到了深夜容易多愁善感
  • 22點(diǎn)之后,大多數(shù)人就開(kāi)始睡覺(jué)了,說(shuō)說(shuō)數(shù)量迅速下降,下降幅度十分驚人

如果不看原文的話,看到這里,我大膽推測(cè)原作者的年齡大概在25歲左右,好友里面學(xué)生和已經(jīng)工作人都有一些,且學(xué)生較多,在北京上海的工作人群也不會(huì)是樣本的主流。因?yàn)閺?2點(diǎn)到23點(diǎn)的情況來(lái)看,似乎活躍度受到了某種外力的影響而急劇下降,我猜是學(xué)校里的熄燈制度造成的。從8點(diǎn)和17點(diǎn)之間的情況看,應(yīng)該是標(biāo)準(zhǔn)的工作時(shí)間。如果在京滬早八點(diǎn)上班的話,一定會(huì)被擁堵的交通折磨直至遲到的。

生日分布?

這幅圖,作者使用的數(shù)據(jù)是QQ用戶的生日資料。原文里,這個(gè)部分是一個(gè)十分巨大的槽點(diǎn)

“10月份生小孩的多好理解,一年忙差不多了,天氣也不冷不熱正是生小孩的好時(shí)候。 但1月份最高且和2月落差很大有點(diǎn)不好理解,那么冷的天生不怕凍嗎? 我估計(jì)是1月份也快過(guò)年了,以前沒(méi)聚一起的好不容易聚一起了,就容易沖動(dòng),沖動(dòng)就啪啪啪。 4月份生日的最少也好理解,中國(guó)人不喜歡4這個(gè)數(shù)字唄。 ”

還是看看我的分析吧:

  • 為什么1月的人數(shù)特別多?答案其實(shí)很簡(jiǎn)單:因?yàn)镼Q默認(rèn)的生日就是1月1日,很多人都沒(méi)改默認(rèn)值呀!
  • 為什么10月出生的人多?答案并不是原文中提到的“一年忙的差不多,天氣也不冷不熱正式生小孩的好時(shí)候”,真正的原因是……唉,原作者真是太可愛(ài)了……十月懷胎呀,那些十月份出生的孩子都是在前一年的年底“產(chǎn)生”的呀!那才是一年忙的差不多了的時(shí)候,而且天氣冷也不方便出門,所以就……你說(shuō)對(duì)吧?
  • 至于4月份出生的人少,同樣的道理,你要往前推10個(gè)月才能知道原因,前一年的六七月份才是真正的生產(chǎn)日期……而且,想想幾十年前沒(méi)有空調(diào)的六七月份的高溫,人們應(yīng)該很難專注于人口增長(zhǎng)事業(yè)吧……(我聽(tīng)說(shuō)過(guò)最奇葩的分手理由是倆人在一起太熱了,大抵如此)
  • 另外,如果把4月和10月的生日情況對(duì)應(yīng)起來(lái)看,正好對(duì)應(yīng)了前一年最冷和最熱的時(shí)節(jié),我仿佛已經(jīng)看到了人口浮動(dòng)的秘密……不過(guò)隨著生活水平的提高,主要是取暖和制冷成本的降低,相信在未來(lái),這條生日曲線會(huì)更加平緩

看到這里,我大膽推測(cè)原作者是南方人,因?yàn)?月出生的人實(shí)在是少的比較明顯,說(shuō)明夏天一定很熱,如果再激進(jìn)一點(diǎn),大概可以把范圍縮小到那幾個(gè)著名的“火爐”所在的華中地區(qū)吧。

用戶所在地分布

這部分我沒(méi)有找到太多能推測(cè)的信息。不過(guò)還是可以補(bǔ)充一些:

  • 我在第二部分的猜測(cè)被證實(shí)了,原作者果然是南方人(福蘭人)呢!

原作者統(tǒng)計(jì)了人數(shù)前5名的省份:廣東、湖南、四川、江蘇,然后好奇為什么在四川人多……

其實(shí),答案很簡(jiǎn)單,因?yàn)樗拇ㄈ硕嘌健阍倏纯慈藬?shù)第五位是河南,為什么?因?yàn)楹幽先硕嘌健宜拇ê秃幽暇嚯x原作者都不是很遠(yuǎn)。

相比之下,人口大省山東,就沒(méi)能大規(guī)模滲透到原作者的好友圈子,為什么?因?yàn)樯綎|在北方,人們?nèi)ヶ捕急本┑囊庠笗?huì)更強(qiáng)烈吧。

年齡分布

這部分也沒(méi)有太多好說(shuō)的了,年齡跨度其實(shí)不太大。不過(guò)還是有幾點(diǎn)可以談:

  • 我在第一部分的猜測(cè)被證實(shí)了,原作者25歲

看圖提問(wèn),為什么1991年的人口突然會(huì)比前后兩年的人少呢?

因?yàn)?991年是農(nóng)歷的羊年,有傳言說(shuō)“屬羊的人命不好”、“十羊九不全”,所以羊年出生的人就比較少了…當(dāng)然,我們都知道這其實(shí)只是謠言,并沒(méi)有科學(xué)依據(jù)。唉,封建迷信害人吶…

性別分布

性別統(tǒng)計(jì)方面,沒(méi)填的部分可以按照已知的男女比例進(jìn)行分配。

  • 考慮到有些女生會(huì)設(shè)置QQ空間的訪問(wèn)限制,以及有些女生會(huì)把性別改成男生用來(lái)防范騷擾,我們就當(dāng)男女比例分別是60%和40%吧

鑒于這樣的男女比例,我推測(cè)原作者大概是個(gè)理工男吧,(無(wú)惡意的推測(cè))原作者是單身吧 ??

原文還有一些語(yǔ)義和輿情的分析,在下短期內(nèi)難以發(fā)現(xiàn)亮點(diǎn),就不再繼續(xù)了。

寫在最后

  1. 會(huì)寫代碼人最帥啦
  2. 對(duì)數(shù)據(jù)敏感的人更帥
  3. 這是一個(gè)大數(shù)據(jù)時(shí)代,數(shù)據(jù)的重要性不言而喻
  4. 數(shù)據(jù)的確會(huì)說(shuō)話,但是,數(shù)據(jù)也會(huì)騙人
  5. 面對(duì)海量數(shù)據(jù)的時(shí)候,我們要保持冷靜,擦亮雙眼

以上

 

本文由 @PMnews ?原創(chuàng)投稿,并經(jīng)人人都是產(chǎn)品經(jīng)理編輯。未經(jīng)許可,禁止轉(zhuǎn)載。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 我猜。。

    來(lái)自安徽 回復(fù)
  2. 10月份為什么那么多 一定是圣誕節(jié)惹的禍

    來(lái)自廣西 回復(fù)
    1. 單純因?yàn)槭律⒆颖容^好上學(xué),謀劃著要在9月生,備孕時(shí)間或者擔(dān)心萬(wàn)一早產(chǎn)生在八月上學(xué)麻煩,十月是最穩(wěn)妥的預(yù)計(jì)。

      來(lái)自湖北 回復(fù)
  3. 有意思,最早看的時(shí)候我就有些疑問(wèn)了,感覺(jué)原作者其實(shí)只是在憑自己的感覺(jué)說(shuō)話,并沒(méi)有一些深刻的理解,樓主想的更深了一層,我個(gè)人的的理解,從片面渠道的搜集這些數(shù)據(jù)其實(shí)很大一部分精力是應(yīng)該用來(lái)篩選甄別的,不能自帶主觀意識(shí),更別被自己騙了

    來(lái)自河北 回復(fù)
  4. 因?yàn)橛?jì)劃生育91年最嚴(yán)。。

    來(lái)自廣東 回復(fù)
    1. 這個(gè)不一定 這是分區(qū)域的 我在我們家那都算第二代獨(dú)生子女了 但是我比91年大

      來(lái)自北京 回復(fù)
  5. 犀利,求作者聯(lián)系方式,求請(qǐng)教數(shù)據(jù)分析相關(guān)的事情

    來(lái)自上海 回復(fù)