2018年,產品人在關注什么?
最近放假閑來無事,自學Python爬蟲技術,而又一年即將結束,便想回顧2018這一年產品人都在關注什么?于是爬取了人人都是產品經理的網站數據,看看能不能在其中發現一些有趣的東西。Enjoy~
人人都是產品經理網站(以下簡稱“人人”)是互聯網產品經理和運營人的學習社群,于是選擇爬取人人的網站數據用來分析。筆者爬取了2018年2月到2019年1月的文章發表和閱讀數據,從作者和讀者兩個視角進行分析。
一、分析的技術思路
前期準備主要是數據的爬取和清洗,爬取了文章標題、閱讀量、評論數、收藏量、評論數和發表時間等字段。再確定分析的目的來確定問題分析的框架,最后針對框架中的問題進行數據可視化和撰寫分析報告。
為了避免爬蟲對網站服務器造成負擔,筆者已經在上述鏈接網頁中已經上傳所有爬取的數據,大家要數據的可以直接下載,避免大規模爬取。
二、分析框架
本次分析的文章時間是從2018年2月到2019年1月,從作者發表文章和讀者閱讀兩個視角進行分析。
三、作者視角
1. 作者寫的話題都是什么?
從爬取到的數據中選擇文章標題字段,按照月份為單位,提取每個月文章標題的關鍵字,從而得到不同月份的文章話題,也可以從中看看2018年的互聯網熱點變化。(進行分析的數據截取了每個月前10高頻率的關鍵詞)
關鍵詞頻率圖,按照顏色深淺(方塊上的數字是頻數)突出詞頻
從以上的統計分析圖可以看出文章的話題集中度:
- 2018年2月-2019年1月發表的文章持續、高頻率出現的關鍵詞是,“產品經理“(產品、經理)、“設計”、“運營”、“營銷”等。基本上是符合人人都是產品經理網站的定位,作為互聯網產品經理和運營人的學習社區,筆者在寫文章的話題方面也都是圍繞著產品設計、運營、營銷有關的內容話題。
- 在產品經理和運營所需要的技能方面,“axure”、“交互”、“數據”、“需求”和“增長”等關鍵詞也出現在部分月份前10的高頻率關鍵詞。這些關鍵詞基本上是偏干貨類的產品和運營的核心技能相關的文章,比如“需求分析”、“交互設計”和“數據分析”等。
- 對于一些比較突出的關鍵字,比如“區塊鏈”,在2018年初區塊鏈技術在網絡上引起了大家廣泛的討論,盡管當初區塊鏈的討論風極一時,但是畢竟區塊鏈的技術尚在討論之中,未來如何在實際產品中的運用仍然不明確,之后對區塊鏈的討論也少了很多。另外“滴滴”關鍵詞也出現在2018年4月的高頻詞中,也是因為滴滴宣布開展外賣業務,開啟和美團競爭之門。
在人人都是產品經理網站的文章中除了有關產品和運營相關內容和核心技能的分享和討論外,作者也緊跟互聯網熱點問題展開討論。
2. 大家都在什么時間發文章呢?
了解了作者們都在寫什么話題的文章之后,我們再看看大家都在什么時候發文章呢??
(不同顏色的面積代表星期為單位的文章數量,月份對應的高度代表月份為單位的文章數量)
在月份方面,除了在2月處于中國農歷春節,文章數量明顯較少,春節假期過后,文章的數量明顯低提高。上半年一直到8月份,文章數量在逐步地增加,特別是7、8月份明顯提升,可能是因為上班族上半年的工作壓力較小,能有更多有空的時間寫文章,7、8月有可能部分學生放假后也能有時間寫文章,這部分因為沒有網站的具體用戶畫像,所以沒有能準確的數據說明??赡苁窍掳肽甑墓ぷ鲏毫Ω螅恼碌臄盗恐饾u減少。
在星期方面,看每種顏色的面積,基本上符合正常的規律,星期六、日的數量相較于工作日的數量減少。在工作日中星期一到星期五,文章的數量逐漸減少?;旧鲜巧习嗪蜕蠈W的作息規律相同。
3. 大家發表的文章質量如何?
文章質量的指數與閱讀量、收藏數、點贊量和討論數息息相關,要稱得上是一篇質量好的文章,并不能僅僅從閱讀量一個維度來看;為了杜絕出現標題黨的可能,我需要重新定義以一個指數來衡量文章的質量,暫且稱之為“干貨指數”。
干貨指數=(點贊數+收藏數)/閱讀量
由于“干貨指數”除出來的數值最后很小,為了方便比較和觀察,可視化的時候同時將數據擴大了1000倍。
上圖是所有文章的“干貨指數”(以下稱指數)分布情況,通常情況下,指數越高代表的文章質量越高。
只有15%的文章指數大于15,這些文章的有較好的質量;一半左右的文章指數在5-15之間,收藏和點贊數都比較正常;但是有將近38%的文章指數在5以下,這里部分文章可能存在標題文的情況,需要進一步提高網站文章的質量。
以下是“干貨指數”前10的文章列表:
這類文章聚焦于真實行業中的產品設計方法和產品核心技能,文章的內容具有實際操作意義,成為大家收藏和點贊的對象。大家也可以搜索一下這些文章用于學習提高產品能力。
四、讀者視角
1. 讀者都喜歡看什么文章呢?
上面從作者的視角匯總了作者們關注的話題、作者發表文章的時間和高質量文章的情況,下面我們從讀者的視角來看讀者們偏愛閱讀哪類文章呢?
(上半部分圖表,高度代表瀏覽量,顏色深淺代表收藏量,寬度代表點贊數;下半部分圖表高度代表文章數量)
通過和上下兩個圖表對比,我們可以得出:
- 在文章數量方面,業界動態、產品設計、產品運營和產品經理的文章數量相對較多,一些更細分的領域,如區塊鏈、新零售和AI人工智能這類的文章較少,結合現在的發展趨勢,這類文章的還存在很大的需求,對這些領域有研究的作者可以分享文章;
- 在瀏覽量、點贊數和收藏量指標上,分析測評、產品經理、原型設計、產品運營和數據分析類文章的瀏覽量、點贊數和收藏量相較于其他都很高,特別是原型設計和數據分析類文章數量較少,但還是有很高的瀏覽、點贊和收藏量,人們對這類技術實用文章的需求還是很大。
- 可以關注到一些特殊情況,業界動態類文章相對于類數目多很多,但是閱讀、點贊和收藏量卻比較低,筆者回顧網站的文章分類標準,發現業界動態的文章其實包含了很多不同的內容話題,內容比較寬泛,對話的討論沒有深入,可能會導致讀者沒有欲望讀這類文章。
2. 大家都在什么時候讀文章呢?
前面我們分析了作者都在什么時間發表文章,下面我們來看看讀者閱讀的時間段和發表有沒有相照應呢?
(高度代表閱讀量,顏色深淺表示不同指數)
與作者發表文章相同,星期六、日相較于閱讀的數量相較于工作日有明顯減少。在閱讀量方面,星期一的閱讀量最高,一直到星期五數量一直明顯逐漸下降。收藏量、點贊數和評論量的趨勢與瀏覽量大致相同。在星期一的時間大家有更多的時間閱讀,互動的欲望也更高。
3. 讀者的閱讀行為偏好
(圖表中的點代表文章,橫軸為文章點贊量,縱軸為收藏量,顏色深淺為閱讀量)
消費者的閱讀行為主要從點贊數、收藏量和討論數量幾個指數來分析。一般情況下,讀者認為文章的干貨足,所講的內容更有實用價值,就會收藏文章;對于一些精彩、輕便和易閱讀的文章,更容易點贊。從上圖中點的分布情況,大多數點分布趨向于Y軸(收藏量),讀者收藏的行為要高于點贊。
從上面各類型文章的數量也可以看出,產品設計、產品運營和產品經理核心技能類的文章數量確實很多,能夠為讀者帶來一些收獲。
下面看看收藏量、點贊數和評論數前10的文章,看看讀者更偏好那類型的文章:
從收藏量的前10文章類型來看,Prd文檔、原型設計、需求文檔和技術知識占據了絕大部分,這些知識都是作為產品經理需要掌握的做基礎的技能。
大家也可以去網站中搜索這些文章,對需要入門產品經理的同學會有一定的幫助。
在點贊數前10的文章中,除了高質量的產品分析文章之外,比較有趣的內容獲得大家的青睞,例如《數據挖掘實操|用文本挖掘剖析近5000首《全唐詩》》、《高能,如何用互聯網思維賣包子》等,文章內容有趣、容易閱讀、能夠在短時間內吸引讀者的眼球。
找到評論數前10的文章后,筆者閱讀這些文章的評論內容,發現大部分評論是向作者留言要Prd文檔資料之類的,并沒有進行有關文章內容的有效討論。
像《拼多多現象的原罪是什么?》具有“爭議性”話題的文章能夠吸引讀者的討論。但是總體來說,這種有效的討論并不是非常多。
筆者另外瀏覽了以下網站的另外一個模塊——熱門討論,大家會在這個模塊里面討論一些時效性、具有“爭議性”的話題,這可能也使讀者用戶更習慣在熱門討論區分享觀點。
總之,更具有閱讀性和有趣性的文章能夠獲得大家的點贊;更有干貨和實用技能的文章,大家更會收藏用于今后的學習。
總體來說,從網站整體點贊和收藏量來看,讀者收藏的行為多于點贊行為,大部分文章都很有干貨。
五、總結
本篇文章通過對作者投稿的類型、時間、質量和讀者閱讀的類型、時間、閱讀行為偏好地分析,挖掘其中還存在需求的文章類型,利用數據分析給作者投稿、讀者閱讀學習和網站文章推送給予一些指導意見。
本人剛開始學習爬蟲和數據分析,如果有分析不對或有更好的觀點補充,歡迎討論或私信。
最后,希望通過這篇文章可以幫助大家回顧2018,給大家2019的工作學習能夠給予一些幫助。
祝大家新年快樂!
本文由 @xunkhun 原創發布于人人都是產品經理,未經許可,禁止轉載
題圖來自 Unsplash,基于 CC0 協議
作者有心了
此篇也得收藏+點贊
作者有心了。 有一點疑問,讀者閱讀時間是怎么統計來的,爬的什么數據?
first collect