不如“灰度一下”,灰度標準該如何定?
產品在上線新功能之前,往往需要先做灰度測試,那么灰度測試的難點在哪里?其中,如何定義灰度測試的標準就是難點之一。這篇文章里,作者結合實戰經驗,針對灰度標準如何定這個問題做了解讀,一起來看看吧。
我們在上線一個新功能前,如果沒把握,都會做灰度測試,那么灰度測試的難點在哪里呢?
筆者認為如何定灰度測試的標準往往是難點。
一、結合測試目標定灰度標準
定標準前,需要先明確灰度測試的目的是什么?
是檢測性能問題,還是想看體驗效果。
比如如果灰度測試的標準是檢測性能問題,那么往往在灰度測試前,都會做壓測(壓力測試),模擬線上的流量環境,提高灰度測試的準確性。
在灰度之后,如果發現性能受到較大影響,一般會做回滾(定位到新功能代碼行,下架新代碼,仍然復用老代碼),當然一般開發都會在新功能代碼行處設置開關,當出現性能問題后,直接關閉開關即可。而做性能檢測的難點在于模擬壓力測試的環境,壓測的環境越真實,檢測的標準真實度越高。
而如果是想看體驗效果,例如上線新功能后,想查看新功能用戶的點擊率如何?
此時就涉及到灰度標準的制定。比如小紅書,當你發布一篇小紅書筆記后,小紅書會先選定100人的范圍,可能涉及到發布筆記的話題,同城,女性等標準,在100人的范圍內點擊數據理想,將會繼續釋放流量到500人范圍,以此類推,當你的筆記獲得更多收藏和贊,會獲得更多流量助推。其實這個本質上也是灰度測試。
二、計算“最小可靠性樣本”,定最佳樣本數
灰度測試的樣本數應該如何選取呢?大多數情況下,測試樣本數是越多越好。但是如果沒有定好方案,那么將會影響最終測試的效果。
這里提供一個灰度測試樣本數計算網址,使用它便可以快速計算出樣本總數。
灰度實驗組的人數為“最小可靠性樣本”??梢酝ㄟ^這個網站來計算合適的人數:Evan’s Awesome A/B Tools。標紅的部分即為最佳樣本數,至于計算原理和使用網站方法,大家可以自行百度,有各類文章可供參考。
三、顆粒度都會從粗到細,多次灰度
例如“文心一言”大模型剛面世的時候,篩選了一批用戶優先體驗。這其實本質上也是灰度測試,而優先獲得文心一言試用機會的,也許是這樣一些標簽:高頻篩選“大模型”用戶、高頻搜素ChatGPT用戶等。那么回到最初的問題,灰度的標準應該如何定呢?
一般灰度測試顆粒度都會從粗到細去制定,顆粒度的制定當然前提是來源于公司是否有該字段數據庫的支持。
比如公司主打做旅游市場的汽車租賃服務,根據前期調研,發現疫情后,旅游業將迎來小高峰,很多自駕游游客都會選擇環島游,汽車租賃服務必然會非常受歡迎。因此公司計劃在海島附近開設汽車租賃服務。
在平臺開設租賃服務方案后,不確定該租賃服務上線后市場的接受度,需要先選取最小可靠性樣本??煽啃詷颖緩淖铋_始的粗顆粒度:旅行目的地“海島、”旅行方式“自駕”,先回收一批用戶的測試數據,再慢慢細化顆粒度,比如旅行天數(30天內、10天內、5天內)、旅行人數(家庭游、親子游、情侶游)、旅行交通費用(1000、2000、3000)等字段對租賃方案的接受度各自如何。
多次灰度后,分析用戶數據,哪部分用戶會選擇汽車租賃服務。從而推動租賃方案進一步完善和精準化投放。
而如果在細化顆粒度的過程中,數據庫缺少該字段,比如旅行交通費用不在數據庫字段中,那么則無法就這一項做為灰度測試的標準。
以上是筆者在實戰中的一點心得,希望能幫助到大家。
本文由 @灰研走B 原創發布于人人都是產品經理,未經許可,禁止轉載
題圖來自 Unsplash,基于 CC0 協議
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。
- 目前還沒評論,等你發揮!