亚洲午夜不卡无码影院,在线观看成人无码中文av,日韩亚洲av无码三区二区不卡

搜索

APP

起點課堂會員權益

職業體系課特權

線下行業大會特權

個人IP打造特權

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業技能直播

會員專屬社群

榮耀標識

發布

注冊 | 登錄

不如“灰度一下”，灰度標準該如何定？

灰研走B

2023-09-01

0 評論 9873 瀏覽 37 收藏

6 分鐘

產品在上線新功能之前，往往需要先做灰度測試，那么灰度測試的難點在哪里？其中，如何定義灰度測試的標準就是難點之一。這篇文章里，作者結合實戰經驗，針對灰度標準如何定這個問題做了解讀，一起來看看吧。

我們在上線一個新功能前，如果沒把握，都會做灰度測試，那么灰度測試的難點在哪里呢？

筆者認為如何定灰度測試的標準往往是難點。

一、結合測試目標定灰度標準

定標準前，需要先明確灰度測試的目的是什么？

是檢測性能問題，還是想看體驗效果。

比如如果灰度測試的標準是檢測性能問題，那么往往在灰度測試前，都會做壓測（壓力測試），模擬線上的流量環境，提高灰度測試的準確性。

在灰度之后，如果發現性能受到較大影響，一般會做回滾（定位到新功能代碼行，下架新代碼，仍然復用老代碼），當然一般開發都會在新功能代碼行處設置開關，當出現性能問題后，直接關閉開關即可。而做性能檢測的難點在于模擬壓力測試的環境，壓測的環境越真實，檢測的標準真實度越高。

而如果是想看體驗效果，例如上線新功能后，想查看新功能用戶的點擊率如何？

此時就涉及到灰度標準的制定。比如小紅書，當你發布一篇小紅書筆記后，小紅書會先選定100人的范圍，可能涉及到發布筆記的話題，同城，女性等標準，在100人的范圍內點擊數據理想，將會繼續釋放流量到500人范圍，以此類推，當你的筆記獲得更多收藏和贊，會獲得更多流量助推。其實這個本質上也是灰度測試。

二、計算“最小可靠性樣本”，定最佳樣本數

灰度測試的樣本數應該如何選取呢？大多數情況下，測試樣本數是越多越好。但是如果沒有定好方案，那么將會影響最終測試的效果。

這里提供一個灰度測試樣本數計算網址，使用它便可以快速計算出樣本總數。

灰度實驗組的人數為“最小可靠性樣本”?？梢酝ㄟ^這個網站來計算合適的人數：Evan’s Awesome A/B Tools。標紅的部分即為最佳樣本數，至于計算原理和使用網站方法，大家可以自行百度，有各類文章可供參考。

三、顆粒度都會從粗到細，多次灰度

例如“文心一言”大模型剛面世的時候，篩選了一批用戶優先體驗。這其實本質上也是灰度測試，而優先獲得文心一言試用機會的，也許是這樣一些標簽：高頻篩選“大模型”用戶、高頻搜素ChatGPT用戶等。那么回到最初的問題，灰度的標準應該如何定呢？

一般灰度測試顆粒度都會從粗到細去制定，顆粒度的制定當然前提是來源于公司是否有該字段數據庫的支持。

比如公司主打做旅游市場的汽車租賃服務，根據前期調研，發現疫情后，旅游業將迎來小高峰，很多自駕游游客都會選擇環島游，汽車租賃服務必然會非常受歡迎。因此公司計劃在海島附近開設汽車租賃服務。

在平臺開設租賃服務方案后，不確定該租賃服務上線后市場的接受度，需要先選取最小可靠性樣本?？煽啃詷颖緩淖铋_始的粗顆粒度：旅行目的地“海島、”旅行方式“自駕”，先回收一批用戶的測試數據，再慢慢細化顆粒度，比如旅行天數（30天內、10天內、5天內）、旅行人數（家庭游、親子游、情侶游）、旅行交通費用（1000、2000、3000）等字段對租賃方案的接受度各自如何。

多次灰度后，分析用戶數據，哪部分用戶會選擇汽車租賃服務。從而推動租賃方案進一步完善和精準化投放。

而如果在細化顆粒度的過程中，數據庫缺少該字段，比如旅行交通費用不在數據庫字段中，那么則無法就這一項做為灰度測試的標準。

以上是筆者在實戰中的一點心得，希望能幫助到大家。

本文由 @灰研走B 原創發布于人人都是產品經理，未經許可，禁止轉載

題圖來自 Unsplash，基于 CC0 協議

該文觀點僅代表作者本人，人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容，請關注人人都是產品經理微信公眾號或下載App