假設檢驗法在商用機器人業務中的實際應用

0 評論 2617 瀏覽 1 收藏 7 分鐘

編輯導讀:假設檢驗是用來判斷樣本與樣本、樣本與總體的差異是由抽樣誤差引起還是本質差別造成的統計推斷方法,是統計學中非常重要的方法論之一,有非常廣泛的應用。本文作者將以商業機器人行業為例,分析假設檢驗法在商用機器人業務中的實際應用,與你分享。

假設檢驗是統計學中非常重要的方法論之一,在實際業務中的應用也非常廣泛,生物,醫藥乃至互聯網行業內著名的AB test,其本質都是假設檢驗。

基于筆者目前所在的商用機器人行業,結合理論和實踐,設計了如下的實驗,其目的是去論證對于機器人的平均速度的影響因素(由于數據和結論的敏感性,不作披露,希望能夠拋磚引玉,將假設檢驗的方法論應用到更為廣泛的業務中)。

一、什么是假設檢驗

假設檢驗即小概率反證法,在假設的前提下,估算某事件發生的可能性,如果該事件是小概率事件,在一次研究中本來是不可能發生的,現在發生了,這時候就可以推翻之前的假設,接受備擇假設。如果該事件不是小概率事件,我們就找不到理由來推翻之前的假設,實際中可引申為接受所做的無效假設。

理論支撐:

  1. 樣本來推斷總體(需要保證樣本的隨機性)
  2. 中心極限定理可知,當樣本數足夠時(n>30),樣本的抽樣分布可近似于正態分布。

著名的假設檢驗方法有U(Z檢驗),T檢驗,F檢驗,卡方檢驗等。這里重點介紹有關平均值參數的假設檢驗方法:

已知總體方差,用U(Z檢驗)

如果檢驗一組樣本平均數(X)與已知的總體平均數(μ0)的差異是否顯著:

X是檢驗樣本的均值;μ0是已知總體的平均數;S是總體的標準差;n是樣本容量。

如果檢驗來自兩個的兩組樣本平均數的差異性,從而判斷它們各自代表的總體的差異是否顯著:

未知總體方差,樣本含量較?。ɡ鏽<30)且服從正太分布,采用T檢驗

如果要評斷一個總體中的小樣本平均數與總體平均值之間的差異程度:

如果要評斷兩組樣本平均數之間的差異程度,其統計量T值的計算公式為:

二、實驗組

考慮到目前機器人運行速度的整體分布狀態未知(簡單根據分布圖來看,并不能完全判斷是正態分布)。所以,現考慮設計以下三組實驗記錄,再考慮使用Z檢驗來判斷避障/調度是否影響了機器人的平均速度,且該影響是否顯著

  1. 第一組:同一機器人在完全不發生避障,調度等情況下的成功運行記錄(33條)并計算出該33條記錄的平均速度u1
  2. 第二組:同一機器人在只發生避障情況下的成功運行記錄(33條)并計算出該33條記錄的平均速度u2
  3. 第三組:同一機器人在只發生調度情況下的成功運行記錄(33條)并計算出該33條記錄的平均速度u3

假設檢驗一:

原假設(H0):u1 = u2 (即避障不會影響機器人的運行速度)

備擇假設(H1):u1 != u2(即避障會影響機器人的運行速度)

假設檢驗二:

原假設(H0):u1 = u3 (即調度不會影響機器人的運行速度)

備擇假設(H1):u1 != u3(即調度會影響機器人的運行速度)

由于是雙獨立樣本,且未知分布,綜合考慮采用Z檢驗,采集數據后,選擇相應的scipy函數(https://docs.scipy.org/doc/scipy/reference/stats.html),如果計算出z值遠大于1.96,p值無限接近0,幾乎不可能發生,即拒絕了原假設,接受了備選假設;否則反之。

三、復盤

如果關于調度,避障之類的影響因素有現成的數據可以分析,其實大可不必線下人工去統計,一是樣本量過小;二是人工統計時間,里程等因素費時費力;筆者已將開發這部分數據的需求整理,提交至開發排期。

 

本文由 @南仔 原創發布于人人都是產品經理。未經許可,禁止轉載

題圖來自Unsplash,基于CC0協議

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發揮!