產品評價標準的統計分析方法與應用

1 評論 5154 瀏覽 19 收藏 25 分鐘

針對于產品評價,你知道什么衡量的標準以及數據統計分析方法?本文將重點解析數據量化標準的重要性和量化數據建模及產品評價應用,一起來看看吧。

今天主要從下面四個方向來展開分享,第一部分,數據量化標準重要性;第二部分,什么是評價類評級標準;第三部分,我們如何去做評價類標準;最后,進行案例分享。

一、數據量化標準重要性

第一部分讓我們先稍微了解一下如何做數據樣本收集以及數據量化工作具體是什么內容,這部分偏重理論一些。做數據分析項目,第一步一般都會提出項目調研的方向,然后設定調研問題。簡單舉例一下,假設我們想知道購買某一產品客戶的平均年齡是多少?如上語句就是一個項目的調研方向,這里面其實蘊含了很多信息。我們現在逐一去刨析一下。

首先,我們可以鎖定項目調研目標人群(population)是什么,數據分析上我們稱為數據源;還是以我們這個舉例來說,目標人群是購買這一產品的所有用戶。

其次,我們要知道調研的數據變量(variables)有哪些;這個例子里我們的變量是年齡。知道調研數據變量是什么了,我們才可以去做數據分析的前端數據樣本收集工作。

那么重點來了,我們需要根據我們的數據變量來設定調研問題;我們的舉例比較簡單,那調研問題可以是如下但不僅限于以下兩種,在此也僅是舉例:

調研問題1: 請問您的年齡是_____(請填寫真實數字)

調研問題2: 請問您的年齡是以下_____

A. 25 及以下

B. 26-35

C. 36-49

D. 50 及以上

在此也簡單介紹一下數據變量標準,在數據分析層面上,變量可粗分為兩個大類:一是數字變量,就像調研問題1所提出的年齡數據收集,結果可以是 23, 24,或 59(歲),顯而易見,每一個調研數據的結果是一個數字;還有很重要一點,在數學和統計分析角度上來講,數字變量可以說是連續的,而且是直接的量化數據。

第二類是分類變量,即如調研問題 2 所提出的同樣是收集年齡信息,但問題 2 是收集的年齡段,結果也只能是 A 類、B 類、C 類或 D 類。同樣是收集用戶年齡,但問題 1 和問題 2 所收集的數據變量是完全不同的。不同的變量有不同的數據分析方法和建模,因此變量標準對后期的統計分析的方法的應用、結論都是影響非常大的。在項目最開始的時候,我們就應該定好變量標準,它決定了項目后面如何去做。變量的標準是重中之重,但往往這點也是我們很多人都忽略的。

在此我也多介紹一點,調研項目通常不會只設定單純的一個調研問題,所以一般數據變量也不會只有一個。再簡單舉例,在做人群細分、產品調研的時候,我們需要知道用戶的全面信息,收集數據變量可以有年齡、性別、收入、家庭結構、居住城市、對特定產品的喜愛度等等,在此就不多做介紹了。

現在我們制定好項目需要的變量標準了,那問題來了,我們該如何去收集這些信息呢?需要做數據采集,又稱數據取樣,來收集我們的樣本(Sample),在統計分析上,樣本數據是我們目標人群數據源的子集。采樣方法有很多種,也是通過了解數據變量和數據結構來確認最佳的采樣方法,一般情況下,我們用的也是最多的,還是簡單的隨機取樣。

取樣最基本的原則,我們簡化來講,就是要求從數據源里面抓取每一個數據點的概率是一樣的。這句話有點模糊,我舉例來解釋一下,假設某公司年會有一個抽獎活動,所有的獎券都放在抽獎箱里,我們怎么去確認每一個獎券被任何一個員工拿到的概率是一樣的呢,換句話說就是抽獎完全公平,我們的做法通常是讓工作人員盡可能的去搖抽獎箱,把獎券都搖勻,這就是最簡單隨機取樣的例子。

我們做樣本取樣主要也是為了節省時間和成本,因為數據源可能包含成千上萬乃至上億個數據點,去收集這些所有的數據信息是基本不可能的。所以我們用隨機取樣在數據源中選擇有限集的數據樣本,樣本數據點可能只有 30 個,或者 50 個,是有限集,最小樣本量是需要根據分析方法來確定的。我們的目的就是用樣本數據表象出來的統計值,來反映并展現出整個目標人群數據源的表現形態。所以數據樣本的質量也是完全會影響到我們數據分析的結論,取樣同樣是重要并不可懈怠的工作。

本次的討論重心還是放在數據量化標準的重要性和量化數據建模及產品評價應用上面。

二、什么是評價類評級標準

專家層面上的評價標準,第一個例子我們來講一下米其林餐廳的評價標準。它通過專家對餐廳的食品、包括環境上的種種指標,調查給出 1 到 3 顆星的米其林餐廳的星級評定。

它是餐廳的最高榮譽,是一個級別的分類。細節上面,這里列了這五個(如下圖)。米其林同時還有一個舒適度的評價,即餐環境的好壞程度有另一套評價標準,是用了一個五個刀叉的形式來表示的。

專家層面上的評價標準,另一個例子是比較直觀的,是羅伯特·帕克紅酒的評分標準,它是一個百分的評價標準。

它評價變量信息有顏色和外觀、香氣、風味和魚味、綜合的潛力,我們可以看到后面它有一個值域,它的變量是根據權重的維度來給出的分數,不是一模一樣的綜合給出來的。PR 評分從 50 到 100 來定位紅酒的好壞。

用戶體驗層面評價標準,現在用的比較多的,我們現實生活中也都是接觸過的,如豆瓣評分,看了一個電影之后,可以去評價,評價標準為 1 到 5 分,其實就是李克特的 5 分量表。

通過平臺設定算法,然后可以最后給出來一個 2 到 10 分的打分,作為電影的一個綜合評價。豆瓣評分還有一個 IMDb 評分標準,它是可以顯示出一個電影的好壞的。IMDb 中電影的排名就不單純的是用戶的打分來算出來的,它用了一個計算公式,公式里面每個小寫字母都是一個變量,變量值都是通過平臺收集用戶回饋的真實數據,使用如下模型綜合評價得出,所以這個評價是實時的。如阿凡達這個電影,當時我選取材料作為素材的時候,排名是 75,我們現在去看它的排名可能會變化。

舉另一個例子,美國的 yelp、中國的大眾點評、淘寶、還有蘋果的 app store 都是很常見的是 1 到 5 星的評價系統,標準評價的體系非常簡單.可是我們去看淘寶選商品的時候,可能會去評價比較高的店鋪去買東西,雖然用戶都知道有可能部分評價數據是刷出來的,但是無論如何,在大數據面前,也認為是有理可依的一部分。

專家層面上的評價標準是有權威依據的,即我們理解的專家說的就是對的。其特點為樣本量小,但需要行業專家參評。

用戶體驗層面上的評價標準有大數定理的統計依據,換句話說,用戶還是相信,大多數人說好的東西一般就是好的。其特點為樣本量需求大,但可以從使用者真實量化回饋意見中獲取。

問題就來了,我們做數據分析,當然希望樣本數據越多越好,但是在現實情況下,不可能去一味的擴大樣本量,其耗時耗資,大多數情況下是不可取的或根本做不到的,所以我們就想盡可能用合適的統計分析方法來做到用最小的樣本量,使用最小的人工成本,并得到有統計依據的分析結論。數據變量的量化和模型標準的制定就成了我們研究的重點。

三、我們如何去做評價類標準

如何做評價標準,這里介紹一下 SUS-系統可用性評估??梢哉f這也是我們比較熟知的一個評價系統了,它一共是十個量化問題,統一使用的是李克特的 1 到 5 級打分。

不管我們設定的變量問題是什么,假設我們問這個產品使用的舒不舒服,回饋變量數據都是 1 至 5 之中的數字,極簡的模式但做到了數據變量量化。李克特量表是一個對稱的關系,5 級量表來說,1 到 5 的話,3 就是中心值,如用戶對于測評問題語句,感覺沒有什么認同感但也不反對,可能會給出 3 分評價,贊同的話給 5 分,假設測評話語說到用戶心坎兒里了,那么可能會給出 5 分。李克特量表,可以用正反向問題來問,假設我們的問題是今天是個非常好的天氣,或今天的天氣真是糟透了,讓測評用戶用 1 到 5 分來評價,其實這兩句話問的是同一個問題,前者給 4 分,跟后者反向給的 2 分是一樣的。

為了體驗總體測評分值的好壞區分,研究人員加了第 11 個問題,即想知道好的評價到底是一個什么樣分值打分區間,所以加了一個定性分類變量的問題,為(下圖)七個級別,然后通過大量的樣本收集(5000 個樣本統計值)來分析到底多少分值是好,多少分值是不好,這樣的話對系統可以有一個非常權衡的定位。

通過它的 95% 的一個置信區間做了一個均值的回歸,把打出來的七個不同級別,分為一個小樣本,然后取得均值再去做模擬,最后做出最重要的統計值的一個分布量表,叫做二次統計的樣本數據,如下圖左側所示。這就是把統計值的樣本數據做了一個分布的量表呈現。

做這個工作是為了能看出產品在同類中處于哪個級別如 A 類,或 A+,從而看出給它評級評為 A 類的概念是什么,這里用百分位來表示,意思是它可能是前百分之幾,即舉例,產品如達到 A 類證明這個產品要比市面上 91% 的同類產品要好。

我們簡單了解一下 SUS 的統計依據,因為它是一個變量量化的小樣本分析方法,這個模型樣本量只需要 20 個左右,但可以給出知信度高達 91% 的統計分析結論。但是,此類樣本必須是有時效性的,有代表性的,必須是隨機取樣的樣本。所以說盡可能地去縮小樣本量,還是要有統計分析依據才可以,不然我們所做的分析工作是沒有任何意義的。

現在想把數據量化的方法去做一個延伸,然后為我們用戶體驗和產品的評價去量身打造一個數據分析體系。我們怎么去做呢?

為了擴大變量信息收集的值域,得到分析中潛在數據變量變化內容,我們把 5 級量表擴大到 9 級,即 1-9 的打分,然后做產品綜合評價值的模型搭建。我們的變量問題就不限數量,打造產品測評變量問題庫,也是調研庫,我們的變量數量可根據需要設定上百乃至上千,對于模型設定都是沒有任何問題的。每次去使用變量時,不是說所有問題都要去用,我們可以針對這個產品想調研的方向,去做篩選,這里我也是不建議項目變量信息超過 30 個的,因為再多的話,樣本質量可能就會下降。

綜合測評值是什么概念?我們要達到的目的是,在我們收集到樣本數據后,通過模型算法展示如下,給予產品的評價是一個 0-100 的打分,這是最直觀的樣本統計值。不管我們設定的變量問題是 20 個或者 50 個,模型都會回歸給出 0-100 分區間內的綜合評價統計值。

四、案例展示

下面講一些實際應用案例。下圖冰箱測評的一個指標體系,分了三大類指標,細分一級指標有產品的概念、設計美學、界面設計、操作、功能,還有產品表現形態等。大指標還可以去細分,如設計美學里可以細分為外觀、尺寸、顏色,紋理,細節等。這個標準不僅限于冰箱或家電產品。

再往后看分類展現出的三級問題是直接觸達用戶的,或者是讓專家評定給出分值的,三級變量是我們直接收集的樣本數據。而二級指標和一級指標都是我們在統計分析模型里計算出來的統計值。這里陳述性的語句,如“這個界面好不好看、顏色我喜不喜歡”,是一個三級變量問題的語句,由被測評人給出 1-9 打分。

用戶看到的可能只有下圖中的三級變量問題,但是標準背后的設計和變量問題權重,包括計分算法模型,以及我們的分析方法都不需要去了解。這也是單盲實驗法中為做到樣本數據無偏激性。我們盡可能要去收集到高品質的樣本數據,不需要把我們設計的所有內容完全給用戶解釋清楚,這樣反而會影響用戶的判斷,因為我們希望用戶給最真實的反饋。

這是(如下圖所示)當時做的遙控器的模板測評案例,測了四個模板,可能設了 48 個變量問題,每個模板都對應一個綜合評價值。那我怎么樣去解讀,拿遙控器 A 來舉例,81.71 分在最右側,對應 A 級,按照百分位等級來說,它可能是比行業內 92% 的產品要好。

我們用李克特對稱量表的方式主要是做量化。如下圖所示,數據可視化展示可以用不同的顏色色段用戶評價展示出來,這里設了十個心理測評問題,在數據編程后計算出,直接把最認可的問題放到最上面。

如下圖第一個問題,“我愿意多花錢去買好的東西”基本上能看到 84% 的人給出了五分以上,表示認可態度。粗略地來看,可能有 42% 的人非常贊同,當然也有很少數的不認可,可能是 8% 的。這樣去做分析,是想剖析到產品的每一個細節上,用變量信息展現出產品到底是哪里好,哪里不好。

下圖產品概念,把它分為二級指標,圖中紅字其實就是代碼里的變量的名字。

通過這幾個問題,也可以用數據量表來評價產品功能或產品概念到底是好是壞。下圖是數據可視化的呈現給出了數據分析效果。

用另一種形式去看,可以做對比分析。具體分析A、B、C、D,單向哪里好,哪里不好。這些統計結果單純是通過數據可視化展現出來的。

二級指標也可以用對比分析,用這種雷達圖(下圖)來表現其實也很直觀。我們用量化方式,能直觀地表現出產品需求,產品的好壞,同時我是想用這套理論,來提示在專家層面上產品需不需要研發或改進,或者是從用戶角度上反饋使用場景上哪些需要去提升。

無論作為設計師,還是產品的開發方,對產品的好壞的評價一定要結合專家和用戶兩個方面去看。

第二個案例是《青島歷史建筑與傳統風貌建筑保護技術導則》。

在評定歷史保護建筑的時候,它可能也是有一些指標的。比如說哪個年代,什么人去居住過等等。

作為歷史保護建筑,我們去做數據評價,是想知道什么建筑是歸為幾類保護。在知道保護級別后,不同的級別對以后建筑的翻修、使用、包括整個城市的規劃,都是有不同的方案的。

下圖是具體的兩個量表,雖然量化方式不太一樣,但最終把它的分類變量也分到了 1-5 的級別。第一個量表是歷史風貌建筑保存的完好程度現狀評估,最終統計值也是 0-100 的打分。

第二個量表是歷史風貌建筑價值評估,同樣建模設定回歸為 0-100統計值 打分。根據樣本分布,我們把歷史與風貌建筑現狀保存狀況評估,通常設定60 分及以上為較好;40-59 分為一般;39 分及以下為較差。歷史與風貌建筑價值評估,通常設定 65 分及以上為較高;41-64 分為中等;40 分及以下為較低。

因為這個模型是雙量表樣本數據收集,我們最后商議的是用坐標象限的方式來展示,縱坐標為建筑評定價值,橫坐標為現狀保存狀態,通過這樣來評價出歷史保護建筑的類別。

五、結語

我們在做數據分析項目時,研究數據變量的形式其實決定了分析方法及建模。所以制定數據量化標準的工作也是非常重要的。量化數據的統計值的分布比較多樣,我們可以直觀了解更多潛在的信息。

制定好量化數據標準也有益于我們去累計數據資產,不會出現項目內樣本數據僅限于項目內使用,無法與其他項目樣本數據匹配對接的情況。

最后,數據分析是一個全流程有連續性思維的過程,從數據變量的制定,變量量化標準的制定,確定采樣方法,收集樣本數據,制定分析模型一直到最后使用統計值做出的分析依據,需要從始至終有依據地去執行。這也是我們做變量量化標準及制定評價類分析體系的初衷。

作者:徐龍驤;圖文編輯:筱沄、司嘉惠

來源公眾號:用戶體驗大學堂(ID:isaruxd),專注用戶研究和用戶體驗設計。

本文由人人都是產品經理合作媒體 @用戶體驗大學堂 授權發布,未經許可,禁止轉載。

題圖來自 Unsplash,基于 CC0 協議。

該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 想請教一下,SUS系統可用性評估應該是有自己的一套打分標準,為什么在文章中需要對各個數據點做均值回歸,取得均值后再去做模擬,得出統計值的分布量表呢?

    來自廣東 回復