數(shù)據(jù)分析案例:誰是2018當之無愧的“第一”國產(chǎn)電影?
2018年度國產(chǎn)電影佳片不少,如何利用數(shù)據(jù)分析,來一次“年度國產(chǎn)電影第一名”的評比呢?
海選:票房才是話語權(quán)
酒香也怕巷子深,雖然票房不是衡量影片好壞的唯一標準,但是票房一定程度反映了包括你我在內(nèi)的廣大群眾對該影片的偏好。
這里,我們簡單粗暴地挑選2018年三部年度總票房突破“30億”的大片:《紅海行動》、《唐人街探案2》和《我不是藥神》。
初賽:基本面分析
1. 票房信息
我們選取的三部影片年度總票房都超過了30億,票房最少的《我不是藥神》都比排名第10的《前任3:再見前任》高出將近一倍。從中國票房網(wǎng)上的年度票房數(shù)據(jù)情況上看,三部電影各有千秋:
(1)年度總票房上看,《紅海行動》略勝一籌,36.5億拔得頭籌。
(2)場均人次上看,《唐人街探案2》達到了39人,可謂“座無空席”。
(3)作為前十唯一的劇情片,《我不是藥神》在動作、喜劇的票房殺手中殺出重圍。
2. 搜索熱度
百度作為最常使用的中文搜索引擎,我們用百度搜索指數(shù)“還原”影片上映期間的搜索熱度,可以看到《我不是藥神》和《紅海行動》搜索熱度相近(《我不是藥神》有更高的搜索峰值,但《紅海行動》搜索熱度持續(xù)時間更長)。相比之下,作為續(xù)集的《唐人街探案2》在“吸納”了《唐人街探案1》的熱度后反而發(fā)力不足,在搜索熱度上完敗。
3. 討論熱度
討論熱度衡量影片的話題性和公眾自發(fā)的討論熱度。作為國內(nèi)即時通訊一哥的微信,我們用微信指數(shù)作為衡量影片討論熱度的指標。
可以看到討論熱度上,《我不是藥神》“吊打”其余兩部影片,用生命救贖和仿制藥的沖突掀起了一波討論狂潮,制造了空前的話題性。
同時,帶著“愛國”屬性的《紅海行動》也比商業(yè)喜劇《唐人街探案2》具有更大的可討論性。
4. 人群畫像
由于分析的時間跨度為一年,并不是所有觀眾都在電影院看的這三部電影,因此我們?nèi)匀挥冒俣戎笖?shù)的人群畫像來分析搜索人群的特征。
(1)三部影片的觀眾特征
可以看到除了《紅海行動》的觀眾略微偏向“中老年”(大于40歲)觀眾外,三部“30億”的影片觀眾年齡分布較為相似,主要觀眾年齡處于30-49(和我的預(yù)期不太一致~)。
從性別分布上看,《紅海行動》和《唐人街探案2》男女分布較為平均,但是觀看《我不是藥神》的男性比例要顯著多于女性。
(2)票房電影和流量電影的觀眾特征比較
我挑選了兩部流量電影,一部是楊冪的《寶貝兒》,另一部是吳磊的《阿修羅》。可以看到流量電影的性別比例更加失衡,不過個人對百度的人群畫像數(shù)據(jù)持懷疑態(tài)度,因為20-29歲上網(wǎng)主力軍的存在感有點太低了。
5. 豆瓣評分
在國內(nèi)影評可信度較高的豆瓣,我們可以看到《我不是藥神》討論熱度和評分雙豐收,《紅海行動》評分也拿到了較高的8.3,但是《唐人街探案2》不及同類型電影的平均水平,僅僅只有6.7分。
6. 基本面分析結(jié)論
基本面各方面分析中《紅海行動》表現(xiàn)尚佳,《我不是藥神》通過掀起討論狂潮成為票房口碑雙豐收的佳片,相比之下《唐人街探案2》各方面表現(xiàn)平平,因此國產(chǎn)“第一”電影將在《紅海行動》和《我不是藥神》的角逐中產(chǎn)生。
決賽:影評數(shù)據(jù)分析
我們下一步通過挖掘豆瓣影評信息,實現(xiàn)對兩部部影片的深度分析。
1. 數(shù)據(jù)獲取
我們嘗試簡單地爬取《紅海行動》和《我不是藥神》豆瓣短評的用戶昵稱、評論內(nèi)容、評論日期、點贊數(shù)(其他用戶對該條評論的點贊)和星級數(shù)(用戶給電影的打分,50對應(yīng)5星評價),為下一步的分析做準備。
注:由于豆瓣對爬蟲的限制,我們只能爬取兩部影片各500條短評的數(shù)據(jù),雖然會對最終的分析結(jié)果產(chǎn)生干擾,但大體結(jié)論應(yīng)該出入不大。
2. 電影評分時間走勢分析
在仔細分析兩部電影的評論數(shù)據(jù)之前,我們先看一下兩部電影的評分走勢。該步驟主要是為了查看兩部電影的影評是不是存在惡意“差評”或者“水軍”刷分的情況,保證兩者比較的公平性。
注:《紅海行動》上映日期2月16號,《我不是藥神》6月30號大規(guī)模點映,7月5號上映
可以看到豆瓣影評數(shù)在兩部電影上映期間達到峰值,并且兩部電影三星以下的評價都較少(《我不是藥神》的低星評價更少從而獲得更高的豆瓣評分)。可以看到兩部電影的評分走勢沒有顯著的異常,因此不存在人為的故意“灌水”/“抹黑”的情況。
3. 豆瓣影評情感分析
我們對兩部影片的每條評論進行情感分析,得分高于0.5的為正面情緒,得分低于0.5的為負面情緒,最終得到的兩部電影情感分析圖如下:
從豆瓣影評情感分析圖中,我們可以發(fā)現(xiàn)兩部電影情感得分≤0.94的影評數(shù)量分布基本一致,但是情感接近1的影評數(shù)量《紅海行動》要占絕對優(yōu)勢。
我翻看了兩部電影的豆瓣影評后發(fā)現(xiàn),《紅海行動》影評大多提及影片的熱血和刺激,用詞更偏正面性;但是《我不是藥神》由于其選題扎根生活,引發(fā)的更多是對于生命救贖的思考。
因此我認為在影評的情感分析上兩部影片都表現(xiàn)不錯。
4. 影評詞云分析
我們對兩部影片的評論繪制詞云圖:
可以看到,《紅海行動》作為典型的愛國主旋律戰(zhàn)爭片,影評強調(diào)的是“中國”和“主旋律”。但是同時作為一部寫實的戰(zhàn)爭片,它又自帶“血腥”的負面屬性,這也和我們在電影人群畫像部分的分析中看到的年齡分布偏“中老年化”相吻合。血腥的戰(zhàn)爭鏡頭可能不適合低齡觀眾觀看。
《我不是藥神》影片中既有對故事的肯定:“煽情”,“現(xiàn)實”,“題材”,同時又引發(fā)了人們的反思:“問題”,“希望”,“社會”。
結(jié)論
電影到底是為了追求帶給人們強烈的視覺體驗還是帶給人們對生活的反思,這個問題可能需要一代又一代的導(dǎo)演去權(quán)衡去解決。
在《紅海行動》之前,類似題材《戰(zhàn)狼2》已經(jīng)創(chuàng)造了56億的票房,帶給觀眾的觀感體驗有所減弱。而《我不是藥神》作為出色的商業(yè)片收獲30億票房的同時,又能緊扣現(xiàn)實題材,掀起了民眾巨大的討論狂潮,不能說后無來者但也是前無古人了。
在這個意義上,我覺得《我不是藥神》已經(jīng)勝利了,希望中國出現(xiàn)越來越多類似的商業(yè)影片,別寒了用心拍戲?qū)а莸男摹?/p>
相關(guān)工具:
- 爬蟲:八爪魚采集器;
- 繪圖:pyecharts;
- 文本分析:snownlp,jieba,wordcloud;
- 圖片處理:photoshop。
作者:Tomocat,女朋友是產(chǎn)品經(jīng)理的數(shù)據(jù)分析師。
本文由 @Tomocat 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自 Unsplash,基于 CC0 協(xié)議。
學(xué)到了微信指數(shù)還能這么用。
但是我看紅海行動豆瓣短評有18w條數(shù)據(jù),只爬500條實在是不敢相信什么
微信指數(shù)不是只能看3個月嘛,作者怎么查到這個表的呢
非常喜歡這篇,為了你我注冊了賬號來評論 哈哈哈哈
回來,把SQL的坑填上啊
這邊審核一直沒通過,已經(jīng)發(fā)在知乎同名賬號上了
SQL下篇還沒出呢
另外那個坑怎么還沒填?
太強了吧這個分析
python很多工具都特別強大