數據分析實戰|人人都是產品經理網站(中篇):讀者視角

8 評論 8293 瀏覽 109 收藏 16 分鐘

本篇作者將以讀者視角來分析這些數據,從4萬多篇文章中,找出對于讀者最有幫助最有價值的文章。enjoy~

一. 前篇回顧

前篇《數據分析實戰|人人都是產品經理網站(上篇):平臺視角》中,詳細地介紹了從人人都是產品經理官網(以下簡稱人人)返回的首頁數據中,以平臺運營者的角度來分析:網站目前的內容是否可以支持網站的正常運營。

到本篇則會換一個視角,以讀者視角來分析這些數據,從4萬多篇文章中,找出對于讀者最有幫助最有價值的文章。當然一千讀者有一千個哈姆雷特,每個人對文章的價值都有著自己的判斷,而本文只是從數據統計的角度來分析那些對大多數讀者能夠有幫助的文章。解決的問題如下:

Q1.?閱讀量、收藏量、點贊量和評論量分別的Top10是哪些文章

Q2. 有哪些文章值得收藏?

Q3. 有哪些作者值得關注?

二. 各種Top 10

在Youtube的各種節目中,各種盤點Top 10節目很受觀眾歡迎。所以這里也按俗套劇情先偷個懶,直接把上一期整理好的數據排排坐,分別按照閱讀量、收藏量、點贊量和評論量來進行排個序,看看各種Top的文章是哪些。還沒有學習的同學也可以對本篇點擊一波收藏,之后可以導航深入學習。

1. 閱讀量

(1)99.2萬閱讀量

(2)70.9萬閱讀量

(3)60.1萬閱讀量

(4)56.8萬閱讀量

(5)53.1萬閱讀量

(6)52.5萬閱讀量

《產品經理崗位職責》

  • 發表:2012-08-06
  • 作者:老曹
  • 分類:業界動態

(7)52.1萬閱讀量

(8)52.0萬閱讀量

(9)51.5萬閱讀量

(10)51.0萬閱讀量

2. 收藏量

(1)4274收藏量

(2)2407收藏量

(3)2407收藏量

(4)2298收藏量

(5)2237收藏量

(6)2120收藏量

(7)1932收藏量

(8)1832收藏量

(9)1779收藏量

(10)1774收藏量

3. 點贊量

(1)2181次點贊

(2)1886次點贊

(3)1730次點贊

(4)1556次點贊

(5)1406次點贊

(6)1330次點贊

(7)1328次點贊

(8)1111次點贊

(9)1026次點贊

(10)1002次點贊

4. 評論量

(1)1014次評論

(2)848次評論

(3)723次評論

(4)456次評論

(5)373次評論

(6)319次評論

(7)307次評論

(8)236次評論

(9)234次評論

(10)233次評論

三. 篩選優質文章

對我來說,一年收藏個幾百篇文章到我的材料庫中是非常正常的,之前的這點Top 10根本不夠看,但如果拉長相應的名單又會有很多投機取巧的文章混在其中。人人經過這么多年的發展,已經沉淀了不少佳作。所以,作為一個有點貪婪的人,如何把這些優質內容一網打盡,是我接下來想要考慮的事情。

1. 四個屬性分布

還是之前的數據,我們先再次看一下所有文章屬性中,有價值的數據總覽:

評論這一項相比于其它屬性來說,因為值分布得比較極端,比較適合按類型進行區分,大于25%的文章評論數量為0,大于25%的文章數量評論數大于3,評論數1~2的小于50%。依次可以將其由數值型屬性轉化為分類類型。因為代碼上的處理,這里由低到高的命名為Low,Mid,High。這樣我們可以將原本需要XYZ三個軸再加上空間上點大小的三維散點圖轉化為二維。

根據上面的View(瀏覽量),like(點贊),bookmark(收藏數),comment(點評數)分別做為散點圖的點取值,x軸,y軸,及點的類型,繪制如下:

2. 屬性分析

(1)從上圖中,憑肉眼觀察就能發現約95%以上的文章都集中在左下角的紫色方塊區域內;

(2)雖然紫色方塊區域都是以High為主的藍色居多,但這是將4萬篇文章堆疊在一起的結果,展示上效果有些問題,但從整體比例來說High,Mid,Low也都應該主要集中在這塊區域;

(3)實際對四個屬性的相關性求解也是兩兩之間基本都在0.5以下。雖然是正相關,但屬于比較弱的相關,所以并不能以某一個屬性做為單一的換算比例來“消元”;

(4)四萬多條數據擠在紫色小方塊里,可以在一定程度上將他們在此區間看成是均勻分布的;可以暫時不考慮四個屬性之間的加權問題。

3. 評分計算公式

所以綜上所敘,大致的計算流程如下:

(1)為了四個屬性的值能夠相加起來比較方便,所有值都需要按照[0,1]之間進行等比換算,讓他們能夠保持在一個維度;

(2)為了避免某些文章的屬性因為值過大產生干擾,需要進行一定的修飾。當文章屬性中的值已經大于其它95%的文章時,則只取1。排除掉此部分的值之后,再根據第1條進行換算;

(3)經過上述處理之后,四個值相加則為此篇文章的打分,取值范圍一定是[0~4]。

4. 結果一覽

經過上面如此一番折騰,還能夠打4分的文章還有438篇之多。但對比于全站45000+篇文章來說,1%左右的篩選結果還是可以讓我滿意的。

因為篩選結果有400多篇,所以下面是按時間節選截圖。大家也可以一起來驗證一下我的篩選成果,是不是一些精華中的精華。

(右擊,在新標簽頁中打開即可查看大圖)

四. 哪些作者值得關注?

相信大家也能看到在人人的官網和手機APP中是有作者推薦的。但這個推薦的模型和依據并沒有告訴讀者他們是如何篩選出來的。所以在這里我們利用手上現有的資源做完這點分析,來看看人人上有哪些優秀的作者。

首先,他應該有一定的產量,因為如果作品數量太少,可能會導致較大偏差值,而產生較高的個人分數。所以先排除掉投稿數量低于5篇的作者;

其次,自然就是文章的質量了,結合前文的打分,取當前作者所有作品的平均值即可。下表中為了展示各作者的區別,把分項目的打分也顯示出來。

如此,這些作者就已經有了極大的區分度,而且根據各自的分數,其實在一定穩定上是可以分辨得出此作者的投稿偏好和類型的。如果還沒有關注他們,就趕緊關注一波吧~

補充一點在于,作者的水平描述在人人的體系下,還有打賞、訂閱量和關注量這些緯度可以讓這個打分模型更具有說服力。但限于篇幅覺得已經夠說明問題就不再追加數據了。

下期預告

以上便是本篇讀者視角的數據分析的全部內容,希望大家喜歡。有建議和想法的同學可以在下面的評論區留言討論。

下一期就是本次分析的最終篇,作為作者,取一個什么樣的標題會火!將會從數據分析到數據挖掘建立相應的模型,可以進行預測。

相關閱讀

數據分析實戰|人人都是產品經理網站(上篇):平臺視角

 

本文由 @?核桃殼 原創發布于人人都是產品經理。未經許可,禁止轉載

題圖來自 Pixabay,基于 CC0 協議

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 本系列的相關代碼可以在http://walnut-shell.com/ipython-notebook/ 中找到

    來自北京 回復
  2. 期待最終篇!

    來自廣東 回復
  3. 很贊的數據分析文章,個人提一點小建議:1 閱讀量是否可以考慮時效性因素,也就是一篇文章在多長時間內達到多少的閱讀量/收藏量/點贊量;2 指標體系中的指標有權重差異;3 評價特征除了發文量 閱讀量 收藏量 點贊量之外,還得考慮他們的穩定性(方差),如某位作者保持穩定的頻率在一段時間內的發文頻率等

    回復
  4. 不明覺厲,專門注冊給你點贊

    來自上海 回復
    1. 感謝支持,請期待第三篇 ??

      來自北京 回復
  5. 寫的很贊,閱讀量Top10的有點出入,是不是做閱讀量還原的時候單位M的忽略了,現在最高的應該是《絕密原型檔案:看看專業產品經理的原型是什麼樣》http://www.aharts.cn/rp/149653.html,2.5m的量,一共應該有3篇過百萬的。再次拜讀 ??

    來自北京 回復
    1. 檢測了下代碼確實m單位的處理當成10萬了,感謝~ ??

      來自北京 回復