狠狠躁夜夜躁人人爽天天天天97,黄色高清无码免费看,亚洲欧美日韩成人一区

搜索

APP

起點課堂會員權益

職業體系課特權

線下行業大會特權

個人IP打造特權

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業技能直播

會員專屬社群

榮耀標識

發布

注冊 | 登錄

威爾遜得分：樣本量過少，如何科學衡量喜好程度？一個數據分析的常見難題

首席數據科學家

2022-04-20

2 評論 5211 瀏覽 19 收藏

11 分鐘

編輯導語：有效的用戶體驗感調研有利于提升產品架構，更好的去完善產品。但是當市場樣本量過少，如何科學衡量喜好程度？本文將分享一個數據分析的常見case——威爾遜得分。相信通過本文，可以學到一個更加科學的分析方法，一起來學習下吧。

“分享一個常見的場景，也是經常困擾大家的問題。”

先來一個場景：假設平臺售賣兩款手機A和B。A手機有800人喜歡，200人不喜歡；B手機有9人喜歡，2人不喜歡。那么，用戶更喜歡哪款手機？

相信這個場景，各位朋友在日常生活中、在工作中都遇到過。你們平時是如何做判斷呢？希望通過今天的文章，能給大家一個新的視角、也更加科學的方案。

一、常見的衡量方法

我想，大家的第一反應應該是按照比率進行衡量吧？因此，

A手機喜好率=800÷（800+200）=80%

B手機喜好率=9÷（9+2）=82%80%<82%

因此用戶更喜歡B手機。

這樣對嗎？

看起來沒毛病。畢竟喜歡率越高，代表用戶更喜歡嘛！但是，相信朋友也看出了這個例子的端倪：B手機的總共的樣本量才11個，雖然喜歡率高，但是樣本量這么低，隨便一個數據變化都會對結果產生巨大的影響。

因此，按照這種比率的方法，算出的喜歡率，“靠譜”嗎？用統計學的語言，置信嗎？

二、威爾遜得分

上面我們覺得按照簡單的喜歡率來計算，有點難衡量。但是，如果不按照喜歡率來比較，還能如何計算呢？這就是我們今天的主題了：威爾遜得分。

1. 公式定義

先看看具體的威爾遜得分計算公式：

威爾遜得分：樣本量過少，如何科學衡量喜好程度？一個數據分析的常見難題

u表示正例數（喜歡），v表示負例數（不喜歡），n表示實例總數（總樣本數），p表示喜歡率，z是正態分布的分位數（參數），S表示最終的威爾遜得分。得分越高，代表越喜歡的程度、喜歡的概率越大。

通常，當置信度95%的情況下，z取1.96（近似2）即可。其他常見置信水平與z取值的對應關系如下：

威爾遜得分：樣本量過少，如何科學衡量喜好程度？一個數據分析的常見難題

關于置信區間的概念，可以參考文章《區間估計的置信區間概念及方法》。

2. 案例驗證

下面，我們根據上面的公式，計算一下我們開頭案例的A手機和B手機的威爾遜得分情況。

對于A手機，n=1000，p=0.8，按照95%的置信度，取z≈2，代入威爾遜得分公式中，求得S(A)=0.77

對于B手機，n=11，p=0.82，按照95%的置信度，取z≈2，代入威爾遜得分公式中，求得S(B)=0.52

因此，0.77>0.52，A手機的威爾遜得分高于B手機，按照該算法，我們有結論：在置信度95%的情況下，雖然A手機的喜歡率不如B手機，但是有理由相信用戶對A手機其實是更加喜歡的。

3. 相關應用

其實該得分算法的應用還是比較多的。

除了上文中提出的例子外，該得分算法經常應用于各個網站的排序上。比如知乎的搜索排序（我看網上有說知乎是用的威爾遜得分進行的。這里我也沒法驗證，如果有知乎的朋友可以留言驗證一下。關于搜索算法可以參考文章《搜索系統的基礎知識以及應用》）：

威爾遜得分：樣本量過少，如何科學衡量喜好程度？一個數據分析的常見難題

可以看出，知乎的搜索結果排序中，并不是完全基于贊同數量進行的倒敘排列。如果完全贊同數多的回答置頂，那么新的高質量回答，就永遠沒有出頭之日了，對于內容生態的維護一定是有很大問題的。

威爾遜得分：樣本量過少，如何科學衡量喜好程度？一個數據分析的常見難題

當然，哪怕是用了威爾遜得分，真實實踐中，也會在這個基礎上增加更多維度的打分，咱們這里就是以此舉例，說明威爾遜得分的應用場景，大家清楚就好。

如果只是想把威爾遜得分作為工具，那么掌握到這里、知道了公式該如何使用、如何計算、應用場景是啥，就足夠了。但如果想深入理解一下公式的統計學含義以及推導邏輯，可以參考下面一節。

三、統計原理與邏輯

下面，我們一起看看這個威爾遜公式是怎么得到的，以及背后的統計學原理是啥。

1. 原理概述

首先，威爾遜得分只是威爾遜區間的一個變形，取了威爾遜區間的下限值作為威爾遜得分。

那什么是威爾遜區間呢？

本質上，威爾遜區間其實就是用戶喜歡率的一個區間估計（關于區間估計可參考歷史文章《區間估計的基礎介紹》）。但是該區間估計考慮了樣本過小時候的情況，根據樣本量對區間估計進行了修正，使得該區間估計能夠較好的衡量不同樣本量情況。

說白了，我們用樣本計算的用戶喜歡率，本質上只是對用戶真正的喜歡率的一個點估計而已，樣本越少，可信度越低；樣本數越多，根據中心極限定理，點估計越接近真實值。如果樣本數都很多，那么我們直接計算手機A和B的喜歡率，基本就能代表真實情況了，是可以比較的。但是當樣本數不夠，就面臨了上文中的問題。威爾遜，就是1920年代提出了這個區間估計的公式，用以解決小樣本的準確性問題。

威爾遜得分：樣本量過少，如何科學衡量喜好程度？一個數據分析的常見難題