如何設計更可信的評價體系?

5 評論 16232 瀏覽 83 收藏 18 分鐘

其他用戶的評價是選擇一樣東西時的重要參考,但是在利益的驅使下,眾多無意義的評價出現。為了真正實現評價的作用,評價體系的設計就顯得尤為重要。

評價體系已然作為當今社會不可或缺的一部分,是社會基于群體智慧,對個體可信度最直接有效的度量方法。因此,評價體系將發揮越來越重要的作用。

當我即將預定一家從未去過的酒店,其他房客對這家酒店的評價能讓我更客觀地了解到酒店的真實質量和服務水平。

當我選擇叫一份外賣時,我會打開相關外賣軟件搜索餐廳,然后閱讀其他食客的評價,尤其是帶圖片的評價,經過這一步我基本能過濾九成不靠譜的餐廳。

健康的評價體系,對于用戶和商家的價值是顯而易見的。反之,評價體系的惡意利用會帶來一系列的問題,不僅有損初衷,還會降低評價體系長遠的影響公信力。

在互聯網領域,評價體系存在的主要問題:

  • 個體差異;
  • 評價動機;
  • 利己評價。

問題1:個體差異

在我們所常見的評價體系中,基本上同等對待所有用戶的評價,然而這種 “平等” 反而帶來了“不平等”。這種做法是建立在“群體無差異”的前提下的,這顯然是不符合現實的——人和人的差別實在是太大了。

我和同事出差入住了同一家酒店相同的房型,我是一個容易滿足的人,在聊天的時候我表示對這家酒店很滿意。

而同事因為之前工作的關系經常入住五星級酒店,所以很多問題就沒那么容易逃出他的火眼金睛了。枕頭的硬度不夠,導致躺下的時候頭會陷阱去太多、中央空調的噪音有點大、淋浴碰頭上有很多水銹、提供的洗護用品品質不夠等等。這一點不能怪我的同事太過挑剔,當我有一天入住的豪華酒店足夠多了,我說不定也會一樣挑剔。

再舉一個例子:

在大眾點評里,我有這樣一類朋友,他們是天生的“差評師”,他們帶著一張挑剔的嘴,味蕾敏感,吃遍上海美食,習慣批評,幾乎沒有遇到過滿意的餐廳。

但也有這樣一群朋友,他們天生習慣性好評,遇到什么都說“好吃!” “棒!” “不錯!”。

因為個體的生活閱歷、物質條件、性格特點的不同,對相同事物的評價相差大,這就會對事物的客觀變現的評價產生偏差。

問題2:評價動機

對于受多個獨立因素影響的事物的和的平均值,符合正態分布,不管每個因素本身是什么分布 [1]。比如,男性和女性的身高分別呈現正態分布的特征,動物的體重也呈現正態分布的特征。

用戶對一款產品的評價,顯然也應符合正態分布。因為用戶對產品的評價是相互獨立的,即我對事物的評價不會左右他人對事物的評價。

然而,事情結果和理論相去甚遠。

下圖是我從 Google Play 上截取了幾款用戶規模很大的產品的評分,可以發現從高評分到低評分,均表現出和正態分布相反的情況。

如何設計更可信的評價體系

Google Play 內某些App的評分

如果我們仔細想一下用戶為什么會評價,這種反?,F象就很容易被解釋了。

用戶在發表評價時的動機,要么是非常喜歡、非常滿意,要么就是非常不滿意;而持中立態度的用戶大多不會沒事找事給產品寫一段評價。

這就天然造成了好評(5星)和差(1星)會集中出現,而本應占比大多數的中立評價(2~4星)很少。

評價動機導致中評信息的缺失,對評價系統的數據完整性產生影響,進而影響到評價可信度。

問題3:利己評價

利益驅動下,客觀性蕩然無存。

當你翻閱一下 App Store 里水軍的評價和各種垃圾廣告,再翻閱某寶的部分有返現引導好評的商家的商品評價,就對這句話深有感觸了。

評價體系的作用,原本是為了基于用戶的客觀評價,幫助消費者做出正確的購買決策的。因為很多商品是有一定的試錯成本,所以,我可以通過第三方的評價信息做出理智判斷,而非商家通過經由營銷高手打磨出來的圖文介紹。如此一來,電商會朝著一個良性的方向發展。

不過隨著電商的興起,“刷好評”越來越被需要進而變成了一個具有規模的產業,商家花錢購買水軍為自己的商品刷好評,從而引導更多的轉化。

如何設計更可信的評價體系

某搜索引擎的搜索聯想

除了刷好評,還有刷差評的。

花錢購買水軍去競爭對手的產品頁刷差評,惡意抹黑對手,從其中獲利。

還有部分外賣用戶,用差評威脅商家,已達到吃霸王餐的目的,甚至進行敲詐勒索。

可以怎么做?

淘寶:篩選可信度較高的評價

淘寶最大的在售品類是服裝,而服裝是非常受主觀偏好所影響的,因此如何建立更加中立可信的評價體系,將有助于淘寶平臺更健康地發展。

淘寶為此做了很多嘗試,例如人工審核、評價舉報、申訴仲裁、引導更多內容完整的帶圖評價等。

本文想討論的是,淘寶如何通過各類機制,篩選可信度較高的評價,從而幫助消費者正確決策。

首先,帶圖的評價相比純文字的評價,具有更豐富的信息含量,因此在淘寶評價模塊中,有一個「有圖」篩選的選項,能夠快速幫我過濾出所有帶圖片的評價,這些由消費者實拍而來的照片,更加真實貼近產品本身的情況。

從統計學的角度來說,愿意發圖片的用戶,大概率來說會更加認真地對商品作出評價。

其次,折疊了淘寶認為對購物參考幫助不大的評價,這一切是基于大數據對評價內容的預測判斷。從結果上來看,的確折疊了很多“水評”和一些默認評價,這些評價對購買決策是沒有幫助的。

淘寶的做法是通過對評價的正向篩選,讓有價值的、可信的評價獲得更多展示機會。

如何設計更可信的評價體系

淘寶 APP 評價模塊截圖

Airbnb:異步實名互評

Airbnb 是共享經濟的代表,房東將閑置房間出租給游客以獲得收入。

設想一下,你會讓一個素未謀面的游客住進自己的家里嗎?這對于很多房東來說是對信任感的極大挑戰。

反之,房客如果要住進陌生人的家里,或多或少也有擔心,房東是不是壞人?房東是不是脾氣不好?

不僅如此,還要對非標品服務的質量擁有足夠的信心,因為每個人的家都是不一樣的,這是極端的非標準化。不像酒店,在你入住之前你對其服務質量已經有大致預期了,而民宿不同,經常會超出你的想象。

因此,如何幫助房東和房客建立互信,并彼此約束,是Airbnb業務中非常重要的一環,實名認證的異步互評便是有效的舉措之一。

首先,Airbnb 的房東房客,在發布空間或預定空間之前,都需要進行實名認證:上傳護照或身份證信息,綁定手機號并鼓勵用戶上傳真實頭像。

通過這些信息綁定,可以將賬號與人一一對應,一旦發生問題,Airbnb 可以迅速鎖定到具體的個體身上。而且實名認證的過程對用戶是一種約束,比起匿名行為,實名會讓用戶相對收斂。

其次,Airbnb 入住流程中有一個很有意思的設計細節:當旅客完成入住后,房東和房客均有14天的時間對雙方的表現作出評價,并且只有當雙方都在14天之內互相作出了評價后,評價才會對雙方展示,且不允許修改。

這種模式是不是很熟悉?

沒錯,警察審問超過兩人的團伙嫌疑人時,就是采用隔離審問,嫌犯之間不能做出事先約定,因此能提高審訊結果的可信度。

房客可能由于在房東家住了幾天與房東成了半熟人,礙于情面不忍給出真實評價,Airbnb 用這種方法,避免了房東和房客之間的作弊、消除尷尬,從而一定程度上提高了評價內容的真實性。

缺陷與優化空間

在以上案例中,依然存在缺陷,分別來看:

淘寶

無論是突出帶圖評價,還是折疊“水評”,目前的優化還是圍繞評價的信息內容展開的。

但是,基于評價的效價(用戶評論時對商品價值所持的態度,評價效價一般分為正面、中性和負面評價)的優化還不足,“五星好評返5元”和友商惡評等不實評價依然有滋生空間。

Dellarocas[2]將不實評價分為不實高評價和不實低評價。

不實高評價是為了抬高商品評價,提升銷量;

不實低評價是為了打壓商品評價,遏制商品銷售。

Airbnb

異步實名互評終究會迎來“囚徒困境”的宿命:個人最佳選擇并非團體最佳選擇。

往往如此,房東與房客大概率都會對對方作出好評,而隱瞞部分真實情況。這讓原本希望通過評價內容來增加信任背書的做法,漸漸失去公信力。

上一位房東對房客的不實評價,很有可能會讓下一位房東接待一位“破壞分子”;而房客對房東的不實評價,也很有可能讓下一位旅客住進一間“小黑屋”。

對于信息的可信度而言,可以從信息的來源、信息的傳播渠道、信息的內容三個方面入手。

首先,評價信息來源于購買過服務的用戶,由于用戶的見識、背景、環境、偏好、交易動機的不同,導致用戶在購買相同產品時給出的評價完全不同 [3]。

因此,可以基于現有海量的用戶數據,對用戶本身作出可信度評級,再依次評級對其產生的信息內容作出可信度判斷。

陳元琳 [4] 給出了一種采用 K-means 聚類算法將用戶分為3類用戶群,通過實證數據分析驗證了用戶群間明顯的評價偏好差異;然后利用評價偏好特征,確立每類用戶不同類型交易評價的可信度,并提出了動態的交易評價可信度更新策略。

其次,信息的不同傳播渠道也會對信息的可信度產生影響。

用戶在傳統印刷類媒體,諸如報刊、雜志、書本上發布不可信內容的成本遠遠高于線上網絡環境。由于互聯網具有傳播擴散速度快、節點分散、傳播成本低的特征,使不實信息,尤其是不實評價在互聯網上瘋狂擴張。這一點目前還沒有看到好的解決方法,也許只能依賴于政策和相關法規。

再次,信息的內容本身也是值得優化的重點,分別從評價數量和評價內容質量入手。

評價數量越多,信息不對稱越小,對于商品的綜合判斷就越準確,這一點很多電商及外賣平臺均采用了次方法(可以按照評價數量和銷量篩選商品)。

越是愿意發表詳細且高質量的內容的用戶,其評價指標也就越可信 [5]。

不過,對于內容的可信度判斷有時候不能僅僅依靠內容質量來判斷,還可以綜合語義和情感均衡、時效性等維度來判斷 [6]。

所有場景都適合評價嗎?

不過,并不是所有的商品或服務都適用網絡評價。

我之前在知乎上提過一個問題:為什么我們不會對航班進行評價?

我截取部分個人也認同的回答:

因為航班這個東西,可變性太大了。

比如在某些時候,由于天氣原因或者其他因素造成了航班延誤,那么當日當次航班的旅客肯定評價就特別低;而在某些時候天氣很好,會發生航班提前抵達的情況,旅客給予較高的評分;在有些航線上比如京滬,機型時刻在變化,這樣又對評價的客觀性提出了苛刻的要求。

所以,現在一些航空公司是以電子郵件的形式收集當日當次實際乘坐的旅客的意見,而不是任何人均可以評價,這樣對于航空公司的數據更為完善。

而對C端,我們會在航旅縱橫、飛常準等客戶端能夠看到,但評價一般是帶有旅客本人的主觀性的,以及部分灌水無效內容(比如惡意廣告等)。

by 知乎用戶:CA1301

航班來說屬于必須品,而且有的時候是不可替換,它不會因為你的負面評價做出啥改變,當然你要是大佬可能會該下,你坐不坐那個航班它都會照常起飛、降落。

而酒店、約車啥的你一看這個不行啊,你就可以很輕易換一個。

你換個飛機試試?

by 知乎用戶:雪落

再者,對于先前發生的滴滴打車事件,反而是因為車主獲取了“過多”可靠信息后,心生歹意。

筆者在做調研時,發現很少有人提到評價體系的適用場景,但我認為這同樣重要。

了解事物的邊界,才能更好地優化。

參考閱讀

1. John D. Cook, Why isn’t everything normally distributed?

2. Dellarocas C. Immunizing online reputation reporting systems against unfair ratings and discriminatory behavior [C]//Proceedings of the 2nd ACM Conference on Electronic Commerce. New York, NY: ACM, 2000: 150-157.

3. Xu Q. Should I trust him? The effects of reviewer profile characteristics on eWOM credibility [J]. Computers in Human Behavior, 2014, 33: 136-144.

4. CHEN Yuanlin, CHAI Yueting, LIU Yi, XU Yang. Transaction rating credibility based on user group preference[J]. Journal of Tsinghua University (Science and Technology), 2015, 55(5): 558-564.

5. Ghose A, Ipeirotis P G. Estimating the helpfulness and economic impact of product reviews: Mining text and reviewer characteristics [J].IEEE Transactions on Knowledge and Data Engineering, 2011, 23(10): 1498-1512.

6. 在線中文商品評論可信度研究[J],現代圖書情報技術,2013(9): 60-66.

 

本文由 @陽子 原創發布于人人都是產品經理,未經許可,禁止轉載

題圖來自 Unsplash,基于 CC0 協議

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 非常好(此條5元)

    來自廣東 回復
  2. 學習了,很棒的分享

    來自浙江 回復
  3. 感謝分享

    回復
  4. 干貨

    來自浙江 回復
    1. 感謝鼓勵

      來自上海 回復