數據分析實戰|人人都是產品經理網站(上篇):平臺視角
干貨滿滿的上篇,不僅僅是一篇數據分析,相信你將對人人都是產品經理的網站和發展會有新認識,歡迎指導交流~
起因
看了幾年的人人都是產品經理(以下本文中簡稱人人),從來只是個看客和學習者。最近因為比較閑,也在總結這幾年來的工作心得。近一個月前終于有了第一次投稿,如何通過小程序和微信社群來構建產品運營體系?上過人人的微信頭條,每天都能有幾個新的訂閱用戶,這些都在告訴在我這一點付出還是能夠幫助到其他人的。
但我一直很好奇它具體在人人的過往文章中到底是個什么水平,我心里沒有底。所以出于好奇,就有了這次數據分析的探索之旅。
內容安排
學過數據分析的同學肯定在最開始都有這樣的體會,手中有了錘子,看什么都像釘子。所以好久沒做數據分析,手癢一下子抓取并分析了一大堆數據,遠遠超過了最初的目的。
所以開始構思如何寫這篇文章的時候,做了如下思考:
- 人人是由哪些角色構成?
- 這些角色都想知道些什么?
- 能否通過現有的數據給出這些答案?
綜合考慮以上問題和文章篇幅后,大致擬出如下圖所示框架:
- 左邊為人人官方平臺角度,換位思考,如果我是運營,首先會比較關系平臺的內容循環體系是否正常,其次內容是否帶來足夠的收益;
- 右邊為用戶角度,就是普通的網站訪問者,同時根據身份又分為讀者和作者,讀者想的是能夠找到自己想要的內容,作者是想的是自己的作品是否受到大家的關注;
這是兩個角度,三種角色的基本思考,而本篇則會由左邊開始,下篇會講右邊。
數據介紹
1. 開發環境
基本的數據分析工具就如下圖所示:
2. 數據獲取
因為不是寫教程,而且過程也很簡單,這里只是簡單的提一下。使用Python寫一個For循環請求網站的一個分頁加載接口,就能夠獲得所有的網站文章數據(Json格式),再將所有的Json數據合并整理成相應的列表。
其中接口返回的原始數據項比較豐富,選取其中比較有價值和便于分析的,如下表示:
3. 數據總覽
在獲得數據后,第一時間就先看看整體的數據情況。時間有限就不去做些漂亮可視畫展示啦,總覽數據就如下表所示:
只看以上數據,我上一篇的數據無論是5K的閱讀量還是收藏點贊都還沒有達到平均值,離好文章都還有一些距離,這組數據能解決我的基本困惑。但對于整體的運營情況和前文提出的一些分析目標來說還遠遠不夠,所以還需要后文的深入分析。
4. 正式開始分析前對數據的一點說明
- 數據僅采集自首頁文章列表展示數據,僅用于學習和投稿人人的寫作,不做何商業用途。
- 本文數據采集自2018年8月16號,一切記錄數據以當天為準。
- 文章數據并不能保證嚴格正確和全面,比如:9月2號再次采集時,文章數量比8月16號的還少,應該是下架了一些文章,但對于本次分析人人的網站大體情況應該是沒有問題的。
- 為了不給人人主站造成不必要的網絡負擔,如果有需要原始數據的同學可以在后面留言郵箱,或者在我的個人網站中尋找。
了解以上,讓我們正式開始。
平臺運營淺析
初步分析人人主站的主要業務邏輯如下圖所示。
- 由作者發表文章
- 吸引用戶產生流量
- 部分讀者會轉化成作者、生產獨家內容,以此來構成一個能夠長期、穩定的內容發布體系。在此之后的,通過流量發布廣告,讀者帶來的口碑換取第三方合作、課程轉化等,都是在這之上的業務邏輯,分支太多,不可能面面俱到,所以點到即止。
再根據實際的數據情況,并沒有直接的讀者UV數據,所以僅對以下兩條業務線進行分析:
- 業務線1:多少作者產生了多少投稿;
- 業務線2:投稿的文章帶來了多少閱讀量進行分析。
投稿來源
相信大家在看數據總覽中能看到,投稿作者的身份多達23種,依次是:站長、運營小編、官方、專欄作家、運營小哥、運營小妹、普通用戶、設計小妹、運營、合作媒體、編輯、作者、萌妹子、主編、女神、男神2、臨時工、特邀作者、運營哥、美少女、CV工程師、合作出版社、小編妹妹。
是不是眼花繚亂,群魔亂舞?
這里我根據后面的實際情況對相應的身份進行了些合并。
所以這里需要吐槽和需要改進的自然就是平臺運營小編們對自己的角色定位了,只從命名上看得出來應該是后臺的管理有些混亂,最初來一個新人就想當然的給了自己一個title?;蛘哒f人人當初有自己的培養明細寫手的打算,所以預留了一些特殊的職位和身份?
Q1. 各階段的投稿主力是誰?
OK,吐槽完作者身份后,進入到第一個問題。那就是人人上面的文章都是從哪兒來的,或者說是誰投的稿?
在對作者身份進行合并后,如下圖所示的是2012~2018年,投稿數量分布熱力圖:
這里不僅對各時期的投稿主力看得很清楚,甚至可以清晰看到人人的主業務搭建過程:
- 最初是由站長在2012年完成了大量的投稿(轉載),構建了網站的基本內容(可能是有一些網站的改版,因為人人實際從2010年就開始運營了);
- 在2013年開始,大量團隊成員的加入后,轉為團隊運營的方式,而站長由此開始退居隱退,并且在網站上投稿的用戶明顯增多;
- 之后一年團隊應該過得挺辛苦的,平均每天團隊成員需要投稿15.3篇,只算工作日251天的話,大約27篇,雖然不知道團隊成員多少,但至少在2014.11月拿到融資之前團隊成員應該不會太多。即便轉載,也會有相當的二次編輯工作量;
- 2015年大約是通過對普通作者的發掘,將部分投稿用戶轉為了專欄作家,激發了用戶的投稿積極性,使專欄作家的投稿量有了質的飛躍。當然,這里有個問題可能在于用戶在最初投稿時為普通用戶,但在之后轉為專欄作者,將部分原應該歸到普通作者的數據分到了專欄作家中;
- 之后的兩年就相當平衡了,更多的普通用戶投稿說明對平臺的品牌認可,且源源不斷的提供更多的專欄作者,以維持穩定的內容輸出。
整體來看,之前說的主業務體系目前應該是比較穩定且完整的。2018年的數據目前還不好說,但專欄作家的流失的趨勢有點明顯,可能需要一些激勵計劃。
Q2. 用戶的投稿次數分布
從內容生產的角度來說,普通用戶和專欄作家投稿屬于UGC內容,平臺運營內容屬于PGC內容。PGC內容可以根據團隊運營的情況來調整,而UGC內容則需要通過適當的激勵手段來保持。
而且之前在數據總覽中能看到這樣一組數據:
- 作者總數4138名;
- 人均投遞11.9篇/人;
- 投遞偏差值為91.7。
如此大的偏差值,能夠多次投稿的用戶數量并不多,而實際的情況也如下圖所示(僅普通用戶和專欄作家):
那么在普通的吃瓜群從中,加了V的專欄作家是否真的有做出比普通用戶更多的投稿呢?
為了接下來的分析和數據展示,將對用戶的投稿數量做了出以下分組:
再加上投稿作者的身份,結果如下圖所示:
- 絕大部分的的專欄作家完成了至少5篇以上的投稿,且L20的專家用戶完成了相當的投稿量;
- 從普通用戶L20中可以看到人人確實把相當一部分用戶轉成了專欄作家,而且通過具體數據查看,此類剩余未轉化的用戶大部分只是轉載;
- 普通用戶L2到L6之間有道坎,這個我現在自己寫作也深有體會,對于用戶來說一時興起寫一兩篇沒有問題,但難的是如何堅持;
- 從此數據中無法直接得出普通作者轉成專欄作家后,能夠持續投稿,缺乏用戶身份轉變的時間,故不再做進一步分析。
雖然有些不完美,但確實是20%的用戶解決了80%的問題。
Q3. 用戶的投稿偏好
最后我們來看一看用戶喜歡投哪些類型的稿件,普通用戶的投稿一般是興趣始然,或者是來自自己的工作內容的總結、經驗分享。所以這個分析將將可能得出產品經理們的能力變化和工作變化。
從左往右按年份來看:
- 2012~2015可能還是產品經理在行業內剛開始冒頭的時候,所以產品經理的主要工作:產品設計、產品運營、產品經理大家都還不太敢寫,或者說能寫的人還很少,主要就是分析行業和轉載報道當前的行業趨勢;
- 2016開始才品類豐富起來,應該算是產品經理行業開始變得成熟的一個分界點,在這之后,產品設計、產品運營、產品經理的投稿才變得豐富起來,畢竟有經驗的開始多了起來;
- 營銷推廣、文案策劃、新零售、AI人工智能直到今年才有投稿,應該是最初沒有分類造成的,也應該是相應的內容開始集中出現的結果。
不過這個分類是人人運營自己做的,很明顯還是有些問題。分類來得有些晚,至少熱點已經過了,或者因為沒有分類可以選就在一些大項里湊合一下,將會造成文章索引困難,值得優化一下。
內容收益
網站上有了內容,那就需要看看這些內容所能夠帶來的收益。與很多實時類的新聞不同點在于,人人是個比較專業又垂直的網站,里面的內容是會沉淀的,即使是幾年前的文章也會被用戶找出來進行查閱,而且有相當多的引導和內容聚合,可以將新用戶直接導入到有價值的老文章上來。
所以需要注意,在接下來的文章收益里的幾個數據:閱讀、點贊、收藏和評論都是一個累積量,不能當做PV和UV來進行參考。
Q4. 各時期的文章對用戶吸引力
有了之前對數據的說明和理解,這里將要計算的是各時間點下,不同分類的文章對閱讀量的收益是如何分布的。對于網站來說,歷史內容也是可以增加點擊量的,而不時間的最終閱讀量均值。
如下圖所示:
(1)2018年,除了招聘信息,所有類型的文章的閱讀量都比之前低,有以下幾種可能:
- 有經驗的產品經理越來越多,所以大家挑著看;
- 產品經理的人數和熱度在減少;
- 產品經理的崗位也在也在減少;
- 優質的內容不如之前的多,所以新用戶會導入到老文章上來,新文章反而快速的沉沒;
具體是哪種,可能還需要直接從管理后臺查看日活,月活比較說明問題。
(2)對于平臺來說,只要能吸引到用戶和點擊量就是好內容,從上圖中顯而易見的:干貨下載和原型設計這兩個入門級的分類文章始終是最能吸引用戶點擊的,這種歷史內容實際只能通過搜索來反饋,可以更突出一點。
(3)AI人工智能,區塊鏈這些新技術的閱讀量都出現了大量的下滑,說明大家對這些新領域并不看好。而還有很多新的發展趨勢卻沒有體現出來,有點可惜,這一點之前已經提過了。
Q5. 各時期的投稿質量如何
剛剛Q4的分析中,僅是從閱讀量均值來查看。但有經驗的同學肯定知道,很多標題黨也可以直接收獲不錯的點擊。所以接下來這里我們需要更嚴格一點,將閱讀、點贊、收藏、評論都放在一起進行考量。
這里再具體看一下相關的統計數據:
數值上的差距還是相當大,所以這里我們為了統計和展示方便,做了以下數據處理:
- 將四項屬性按低于25%的值評定為Low,高于75%的評定為High,其余為Mid進行分組。反過來說,如果一篇文章的某一項屬性評定為High,意味著它的這一項屬性是超過75%的文章的。
- 然后逐月計算將相應月份里,分別計算四個屬性中為High的比例,比如:2017年1月份投稿100篇,得出有20篇閱讀量為High,10篇點贊量為High,那么只記錄相應的高閱讀和高點贊比例分別為0.2和0.1。
結果如下圖所示:其中四條線是取值為[0,1]之間的比例,為了不與下方的投稿量過于干擾進行了放大處理,下面的bars則是當月的投稿數量。需要解釋一下的是,因為高質量的文章并沒有統一標準,所以這里并沒有對數據進行合并,而采取的是人工觀察和感性分析。
最左邊的一條并不是數據出錯了,而是早期站長批量導入,然后之前一直沒提的就是整體投稿量一直呈現上升趨勢。
高閱讀量卻沒有相應的點贊和收藏,所以這里從2015年3月和4月取幾個標題,大家感受一下:
- 從汪涵救場看產品經理的危機處理
- 滴滴拉屎App,估值100億美金!
- 快滴拉屎PK滴滴拉屎,拉屎App的愛恨情仇
- 在網易實習是種什么體驗?
2016年1~3月則是有大量讀者需要的部分,大致邏輯為首頁或者近期沒有用戶需要的,特別是新入門的產品經理,會比較急于想要找到自己想要的,所以會使用到搜索功能,然后小白的大量相似需求會推高相應的結果,而且為了之后的閱讀查找,優先點擊收藏。
2016年10月的投稿量不多,但似乎文章質量普遍很好,如果是取四個值的均值來看也是全期最高的。之后新文章的數據會受到時間的影響,但整體文章質量趨于穩定,高閱讀量的文章會帶來高贊和收藏,而新讀者從評論的角度上來說更活躍一些。
Q6. 作者帶來的收益
根據之前的兩條業務線的分析:首先由作者與投稿,其次是投稿與收益之間還能建立一條分析,最后就是作者與收益。
這里限于篇幅就只做一下整體的統計,來查看核心業務邏輯是否穩定,與之前圖上的單位不同的是,下方的熱力圖的單位是萬。
首先,可以看到,到現在2018年的時候,UGC內容帶來的用戶點擊已經遠遠超過PGC內容,而且歷年所有的UGC內容也已經超過PGC內容,這對內容生產的穩定發展有了基礎。
其次,雖然此頁面上的內容并不能直接代表網站流量,但根據2016~2018年的整體數據,可以給出以下兩種解釋:
- 2018年,相比于用戶水平的普遍上升,文章質量是相對下降了?;蛘呤谴蠹蚁肟吹膬热荻家呀浽谥岸紝懲炅?。但如果結合Q4表中的業務動態也下降了,這種每個人都可能看一看的情況來說,可能性不大;
- 2018年用戶訪問量下降,根據我自己一篇的投稿經驗,文章發出去之后七天內閱讀量的增長就會衰減至一個極小值。所以這里我假定得更嚴格一點,目前的新文章在發表30天之后就不會增長。 我之后的一些篩選和統計也是選擇超過30天的文章來進行評判,這里可以初步得出如此解釋。
總結
結論
- 結論1:最初假設的人人內容體系是存在且正常運行的,而且帶流量的主體已經由平臺運營方在向用戶內容生產的方向轉化;
- 結論2:如果只看今年的數據來說,文章的質量對比往年在下降,對讀者的吸引力也在下降;
- 結論3:產品經理沒有過去兩年那么熱門了,平臺可能需要尋找一些新的業務和內容進行填充。
建議
- 文章編輯推薦:首先這是對投稿用戶最直接的反饋和正面鼓勵,其次被編輯推薦的文章可以讓讀者過濾掉大量標題黨內容,提升內容品質。現在經常在首頁翻了一圈并沒有什么好內容,所謂的熱門推薦,有些比較慢熱,內容比較長容易掃一眼就直接關掉了,這個時候需要有編輯幫助引導一下;
- 用戶投稿等級:可以看到用戶的投稿數量和質量還是有很大的差距的,應該還是需要更復雜一點的體系和等級,而不僅僅只有一個title。另外成為專欄作者后,完成投稿目標是否有什么獎勵呢?
- 文章可以打標簽:就目前來看,這個文章分類是不夠細致的,而且文章分類開得會比較不及時。比較好的流程是,作者在上傳時可以自己選擇多個文章標簽,管理員再可以根據某一些標簽快速的增長再將期轉為分類。這樣不僅對新趨勢能夠有所把握,而且之后建立索引也會更方便。
下篇預告
以上便是本次分析的上半場,那么在之后將會是讀者篇和作者篇,請大家敬請期待。
如果有數據分析大神希望可以給一些指點和建議,非常感謝。
相關閱讀
本文由 @?核桃殼 原創發布于人人都是產品經理。未經許可,禁止轉載
題圖來自 Pixabay,基于 CC0 協議
平臺運營的文章是不是OGC???
好棒啊!話說,這里的數據應該如何獲取呀,好想自己也學學數據分析的
可以向您要一下原始數據嘛^_^?xzhpsp@126.com
文章數量的標準差怎么比文章數量的均值要大那么多?難道有負數嗎
并沒有,是在做數據處理的時候沒有把建站時候的大量文章導入所產生的異常祛除。
小白想問..做數據分析的時候都得自己寫代碼去爬數據嗎?
這個看情況和公司,公司大了會有自己的數據分析部門
所以,是數據分析部門做數據分析,都得自己寫代碼去爬數據?
數據分析部門負責抓取數據 處理數據 分析數據和運營動作由業務部門來 不懂你的邏輯怎么來的
本系列的相關代碼可以在http://walnut-shell.com/ipython-notebook/ 中找到
請問下如何系統的學習數據分析,看了Udacity和網易上的數據分析課程,感覺都不是很系統,求指教~
我很想知道怎么用Python的for獲得數據,求大神教導,以及for程序在哪里可以找開源代碼
哦,這個只是說獲取數據是個簡單的網絡請求接口,編程中使用輪詢的方法就可以獲取到所有的數據。
這兩天剛把人人的文章數據爬下來準備做分析,就看到了你這篇,瞬間覺得不想玩了 ?
還請多指教,未必全面
羨慕有錘子的技術帝^O^
拜讀了,期待下篇(??????)??