數據解讀:為什么這部電影的豆瓣評分我不認可?

8 評論 11433 瀏覽 24 收藏 15 分鐘

當你看了一部電影,但是對豆瓣的評分并不認可,知道這是為什么嗎?

不知道大家有沒有這樣的經歷 —— 看了一部電影,但對豆瓣的評分并不認可。

比如,之前看西游伏妖篇,我就很疑惑,為什么分數這么低?畢竟,周星馳是我很喜歡的導演。

而且,評論區也出現了截然相反的評價:

再比如最近的神奇女俠 Wonder Woman,雖然分數不錯,但我并不覺得很好看。

此外,一直以來也有“愛樂之城/摔跤吧爸爸評分偏高了嗎?”等類似的問題。所以,會想問 ——為什么有的電影分數高/低,但是我們并不認同?是不是豆瓣電影的分數有問題?

之前,從國內外評價差異(和IMDB比較)的角度分析過,比如赤壁/讓子彈飛,國內外的評價并不一致,但還有沒有別的原因?

1. 數據概況

選取2008-2017,??國內公映的電影。限制豆瓣評分人數在2W以上,一方面討論大家較為熟悉、主流的電影,另一方面也盡量減少水軍等的影響??偣?15部電影,評分分布如圖:

包括了很多大家熟悉的電影:

2. 評分的差異

2.1 西游 vs. 杜拉拉

仔細觀察西游的評分,會發現和相同評分的電影(杜拉拉升職記)的分布差別很大。

兩者評分相同,評價人數也很多(20W, 17W),但5星和1星的比例差別很大[1]。

什么意思呢?

  • 杜拉拉升職記:大家都覺得很一般,所以評分集中在了3星
  • 西游伏妖篇:同時有不少人覺得不錯/較差,在1星和5星有不少的分布。

也就是說,盡管兩者(平均)分數相同,但是背后的看法非常不同,評分差異很大,這也正好對應了上面,西游出現兩種截然相反的熱評的情況。

2.2 怎么衡量評分差異

評分分布的差異,可以用方差來衡量,計算方法如下:

也就是計算?評分偏離平均分的程度 [2]。下文使用標準差(STD),方差開方即可??梢宰龀鰳藴什睿⊿TD) – 豆瓣評分(Rating )散點分布圖[3]。為了便于比較,做標準差97%范圍線。

可以看到西游和杜拉拉升職記的STD差別確實很大,西游的標準差排在前3% ,爭議性是巨大的,而杜拉拉則小很多。 另外,還發現散點圖的有兩個特點

  • 收斂:分數越高(比如從6分到10分),STD分布的范圍越來越窄,值越來越小
  • 不對稱: 理論上來說,這張圖應該是關于6分對稱的,因為顛倒一下評星的順序(e.g. 5星 -> 1星, 4星 -> 2星),就能得到對稱的STD值,但實際并不對稱。

對于收斂,可以從平均分怎么計算出來的角度理解:平均分越高,占高分的比例越大,因此評分差異較小。至于不對稱,后面再說。

2.3 典型電影

這里,可以看到很多典型評價差異很大的電影,比如刺客聶隱娘,一步之遙?等等都在這張圖的上方,STD很高。

可以拿他們和STD較低的電影比較:

這里可以問一個問題 ——?這些電影的分數相同,但同樣好看/不好看嗎?

比如,刺客聶隱娘和我11的分數一樣,但他們一樣好看嗎?

顯然不是。

和前面的比較類似,刺客聶隱娘雖然評分較高,但其5星/1星和我11差別很大。為什么呢?大家可能早有耳聞,看評論,也能看到。

可能的原因,是刺客聶隱娘畫面極具美感,但另一方面,劇情卻讓人看不懂。所以評分上出現了較大的分歧。一步之遙也是類似,算是比較有名的例子了。

而爸爸去哪兒,也能從評論中看到一些端倪:

可能的原因是,一方面是娛樂性優秀,帶著小孩看電影的家長觀眾們覺得很好,另一方面,有人覺得這不是電影,純屬圈錢。

通常,我們總是在討論一部電影評分的高低,但這只是平均分,當大家看法一致的時候,這個分數會很有參考價值。但當評分差異很大(STD很大)的時候,這個分數的作用就有限了。

3. 電影評分的形狀

3.1 總共有幾種形狀?

從評分的分布,很容易想到關于評分形狀的段子:

那么,電影的評分,會有多少種形狀呢?

可以用K-Means來做,輸入數據為5個評分等級的比例。實際可以把類別分得很細,這里簡單分成6種,比較有代表性,結果如下圖:

這些分布,相當于電影評分的典型形狀,兩頭和中間對應了大家熟知的P, b和鐘形分布[4]。需要注意的是,高STD的電影因為其形狀差異很大,并不適用于這個分類。

這可以部分解釋,為什么散點圖是非對稱的 —— 因為有很多4星為主的電影,但很少有2星為主的電影。畢竟,大多時候給的評價都是一般(3星),或爛片(1星),很少會有電影“精確爛到2星”。

每個形狀下,也能看到STD高/低的電影,比如魔獸,愛樂之城等等。

依然可以問這個問題 ——?這些電影分數相同,但是同樣好看嗎?

像愛樂之城,?雖然評分和薩利機長一樣,都算典型的好電影了,但是打5星的明顯比薩利機長多,也側面說明了為什么有人疑惑其分數“是否偏高”。魔獸,則可能有粉絲加成的影響。其他電影不再具體討論,大家可以自己分析~

3.2 奇怪的形狀

還有一些奇怪形狀的電影,比如人間·小團圓,小時代4, 長城,并不屬于上述任何一種典型分布

這是為什么?

具體原因不得而知。但實際上,這是典型的混合分布的特征,也就是說,由幾個分布疊加得到。

如果把最差評分和中等評分混合起來(各按50%算),可以得到和上面非常相似的形狀。

那么,有沒有可能真的是混合分布呢?

查看評論,不難發現,對于人間·小團圓,是ZZ因素導致了對其評分的極大差別。

小時代可能也是類似。有人看到郭小四就要打一星,另一方面,原著粉們則表示還算不錯。

那么長城呢?可以查看近期的評價。需要注意的是,這時不太可能有水軍了,因為這時候的分數對票房毫無意義。簡單看一下前兩頁,發現2-3星居多。

和當初的差評還是有差距的。更靠譜的當然是抓數據,不過豆瓣官方并沒有公開相關的數據,這個以后有機會再補吧~ 延伸出來的問題是,惡評如流的電影,在下映之后,還會有那么多差評嗎?

4. 總結

本文主要做了兩件微小的工作:

  • 用標準差(STD)展示了電影評分的差異情況,能看到不少評價差異很大的電影
  • 對評分的形狀,用K-Means分類,可以看到評分形狀的幾大類型

回到我們最開始的問題 ——?為什么有的電影分數高/低,但是我們并不覺得如此?是分數有問題嗎 ?

原因在于,那只是個平均分而已

而有意思的也在于此 —— 大多數人在談論豆瓣的評分的時候,都知道這是平均分,也都能看到分數的分布情況。而且大多數時候,這個平均分是有效的,因為大家的評價較為接近(STD較?。?/p>

但是,很少有人注意到評分的分歧大小(即STD的大?。K?,當看到一部STD很大的電影,平均分和我們感受不符時,我們疑惑了,進而覺得豆瓣的評分有問題。實際上,只是因為人們的評價差異太大(STD太大),使平均分的意義變得比較有限了而已。

最后,我在想,有沒有可能給豆瓣評分旁邊加上一個小標簽?比如,對STD特別大的電影,在旁邊加個“分歧警告”標簽,注明 “這部電影的評價差異水平達到了前3%,平均分的參考意義較為有限”,進一步還可以分開展示好評/差評,向用戶解釋評價差異具體如何。這樣或許能減少一些人們對(平均)評分的疑慮。

然后,分析有什么疏漏或者沒講清楚的地方,也歡迎大家指出~

[1] 這里采用的是豆瓣的評分柱狀圖,畫法并不標準(占比最大為定寬),但適用于基本的比較

[2] 理論上,ordinal data不適于計算均值、方差,可見?Recommender Systems: We’re doing it (all) wrong?Calculate mean of ordinal variable??。不過,算均值固然不嚴謹,但是更好的做法,應該是轉換成一個可以量化的值,比如考慮每個值之間不同的distance, 而不是全盤否定。簡單起見,本文直接當作離散值計算均值、方差。

另外,豆瓣/IMDB的分數并不是簡單的平均值,不過實際區別很小。但無論是眾數/中位數/加權平均,都沒有太大影響。因為本文討論的是,“當用一個分數來代表電影的水平時,什么時候這個分數是有效的,什么時候是無效的?” 無論這個分數的算法如何,都會存在失效的時候(即分歧較大時)。

[3] 實際STD的尺度沒有這么大。這樣畫圖類似于把STD做規整化,更方便于比較。

[4] 理論上可構成的形狀要更多,比如5星/1星各占50%的凹形,但這些形狀在實際數據中并不存在,所以得到的聚類結果中也沒有這些形狀。

源代碼:cqcn1991/movie-compare

文中涉及的交互式散點圖:?cdn.rawgit.com/cqcn1991

 

作者:數據冰山

來自:微信公眾號:數據冰山

本文由 @數據冰山 授權發布于人人都是產品經理。未經作者許可,禁止轉載。

題圖來自PEXELS,基于CC0協議

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 需求:在評分項旁邊加上STD指數,以展示分數分歧情況。

    回復
  2. 其實作者想表達的就是平均分不準確,我說一下我的個人觀點,我認為只需要再增加一個數值就是好評率,將四星,五星的數據統計加起來做一個統計數據就好了,即使平均分相同,但是如果好評率40%和20%的電影很明顯就區分出來了。就比如《西游伏妖篇》和《杜拉拉升職記》這個就能輕松的分配出來了。

    來自北京 回復
  3. 豆瓣向您拋出了橄欖枝

    來自廣東 回復
  4. 建議很一般。需求蠻好的

    回復
  5. 高中數學正態分布

    回復
  6. 前戲太長,主要是看后面的建議

    回復
  7. 必須手動點贊

    來自北京 回復