AI產品經理需要了解的概率論通識:4個概念3個問題
筆者基于工作實踐,分享了非常實用的4個概率論概念和3個經典的概率論問題,供大家參考學習。
我認為AI產品經理應該學一些概率知識,是否理解概率,直接決定一個人對AI智能的了解程度。
現階段的自然語音處理,圖像識別,等都已不是專家系統,而是以數學為基礎,以概率論為方法,以算法為模型的最優解決方案。
下面就了解一下幾個概率論概念:
一、概率論概念
1. 隨機
有些事情是無緣無故地發生的(隨機事件是在隨機試驗中,可能出現也可能不出現,而在大量重復試驗中具有某種規律性的事件叫做隨機事件),總會有人買彩票中獎,而這一期彩票中獎,跟他是不是好人,他在之前各期買過多少彩票,他是否關注中獎號碼的走勢,沒有任何關系。
理解隨機性,我們就知道很多事情發生就發生了,沒有太大可供解讀的意義。
2. 獨立隨機事件
有些事情是沒有因果關系的(事件A發生還是不發生,對事件B發生不發生不產生任何影響,兩個事件相互獨立),我們可以得到一個結論:獨立隨機事件的發生是沒有規律和不可預測的,這是一個非常重要的智慧。
你投三次骰子,三次不一樣和三次都一樣的概率是一樣的。
3. 數學期望
是試驗中每次可能結果的概率乘以其結果的總和,是最基本的數學特征之一。它反映隨機變量平均取值的大小。
例如甲乙兩個機器人猜拳,他們兩人獲勝的機率相等;
比賽規則是五局三勝(先勝3局者為贏家),不考慮平局(即每局必出勝負),?贏家可以獲得100元。前三局,甲勝了2局,乙勝了1局,這時中止了比賽,那么如何分配比較公平?
利用計算機的隨機種子模擬500次接下來2局的情況, 統計2人勝利的次數之比, 按照這個比率來分配100元。
甲輸掉后兩局的可能性只有(1/2)×(1/2)=1/4,也就是說甲贏得最終勝利的概率為=3/4,甲有75%的期望獲得100元;則乙只25%的期望獲得100元。
甲乙雙方最終勝利的客觀期望分別為75%和25%,因此甲應分得獎金的100*75%=75元,數學期望由此而來。
4. 大數定理
當我們大量重復某一相同的實驗的時候,其最后的實驗結果可能會穩定在某一數值附近。
就像拋硬幣一樣,當我們不斷地拋,拋個上千次,甚至上萬次,我們會發現,正面或者反面向上的次數都會接近一半。
大數法則反映了這世界的一個基本規律:在一個包含眾多個體的大群體中,由于偶然性而產生的個體差異,著眼在一個個的個體上看,是雜亂無章、毫無規律、難于預測的。
但由于大數法則的作用,整個群體卻能呈現某種穩定的形態。賭場的莊家在規則上占有少許優勢,玩的次數越多,這種優勢越能顯現出來。
但是如果統計數據很少,就很容易出現特別不均勻的情況。這個現象被諾獎得主丹尼爾·卡尼曼戲稱為“小數定律”??崧f,如果我們不理解小數定律,就不能真正理解大數定律。
例如iPod最早推出“隨機播放”功能的時候,用戶發現有些歌曲會被重復播放,他們據此認為播放根本不隨機。蘋果公司只好放棄真正的隨機算法,用喬布斯本人的話說,就是改進以后的算法使播放“更不隨機以至于讓人感覺更隨機”。
二、經典概率論問題
1. 三門問題
“假設你正在參加一個游戲節目,你被要求在三扇門中選擇一扇:其中一扇后面有一輛車;其余兩扇后面則是山羊。假設你選擇了一號門,然后知道后面是什么的主持人,開啟了另一個有山羊的三號門。然后他問你:‘你想選擇二號門嗎?’此時換門還是不換門?”
如果不交換,保持原狀的話,得汽車的概率是1/3。如果交換的話,是否能增加抽到汽車的概率呢?
答案是會。轉換選擇(交換)可以增加參賽者的機會,如果參賽者同意“換門”,他贏得汽車的概率從1/3增加到2/3。
錯誤的思維方式:當主持人打開一扇后面有羊的門之后,問題就變成了有兩扇門,一扇門里有汽車,一扇門里有羊,選擇任何一個門獲的汽車的概率必然是相同的,也就是1/2。
上面這種方式的問題就是,打開一扇門后,并不等價于在兩扇門里做選擇,而是你是否需要轉換。
人的直覺往往是不可信的,關于“換門”的獲獎率不是一個獨立事件,必須以第一次的選擇作為基礎。在概率學當中,這種情況叫做條件概率。
我們可以通過公式計算:
不換門的獲獎率 = (1/3 X 100%)+(1/3 X 0%)+(1/3 X 0%)=1/3
換門的獲獎率 = (1/3 X 0%)+(1/3 X 100%)+(1/3 X 100%)=2/3
如果我們在生活中遇到了類似的問題,例如開發新產品有3種選擇,我們確信有且只有一種選擇可以獲得成功。但是,我們完全無法判斷哪種更好,于是隨機選擇了一種。
還沒等我們開發,另外一家倒霉蛋公司剛好開發了第二種產品,而且惡評如潮。此時我們果斷更換到第三種模式,會大大提高我們的成功率。
2. 生日悖論
假設你工作在一個23人的辦公室。那么,你辦公室中兩個人生日相同的幾率是多少呢?我們也許是這樣來思考,365天,遇到同一天生日的概率為1/365,或0.0027%!
那么,考慮一下這樣的問題,在一個房間里,至少有多少人,才能使其中兩個人的生日是同一天的可能性超過50%?
有人可能認為房間人數起碼得達到183,因為183是366的一半。但是我告訴你,兩個人的生日是同一天的可能性超過50%,只需要23個人。
把所有23個獨立概率相乘,即可得到所有人生日都不相同的概率為:(365/365)× (364/365) × … ×(343/365) ,得出結果為0.491。
那么,再用1減去0.497,就可以得到23個人中有至少兩個人生日相同的概率為0.509,即50.9%,超過一半的可能性。
按照這個算法,當人數達到 70 時,存在兩個人生日相同的概率就上升到了 99.9%,基本可以認為是 100% 了。可是直覺告訴我們不應該啊,既然這么大的概率,我怎么就沒遇到與我生日相同的那個有緣人呢?
問題就在這里,我們問的是至少有兩個人生日相同,而不是與你生日相同?。?!你這種想法是以自我為中心,而題目的概率是在描述整體。也就是說「存在」的含義是指 23 人中的任意兩個人,涉及排列組合,大概率和你這個個體沒啥關系。
如果你非要計算存在和自己生日相同的人的概率是多少,可以這樣計算:
1 – P(22 個人都和我的生日不同) = 1 -(364/365)^22 = 0.06
生日悖論告訴我們,人類的本質是以自我為中心的,我們非常傾向于從自己的角度去看待和思考問題,太過自我就會扭曲事實。
有研究表明,小孩在一歲之前沒有形成自我意識,當你拿一把扇子給他看,一面畫著貓,一面畫著狗,你先給他看貓,再給他看狗,他會認為你看到的和他一樣,他看到的是什么,你就看到的是什么。
屁股決定腦袋,也是這個意思,當你選定立場時應該非常小心。因為你所看到的都是基于你的立場。有一句話說的很好:你可以自由的表達觀點,但不要輕易選定立場。
3. 首位數字定律
統計一下世界上237個國家的人口數量,你覺得其中以1開頭的數會占多大比例,而以9開頭的數又占多大比例呢?如果你的回答是都為1/9,恭喜你你是正常人;
但是事實卻不是如此:以1開頭的數驚人的占到了27%,而以9開頭的數卻只占5%。為什么會相差這么大呢?這就是本福特定律在起作用。
本福特定律:以1為首位數字的數的出現機率約為總數的三成,接近期望值1/9的3倍,推廣來說,越大的數字,以它為首幾位的數出現的機率就越低;
本福德和紐康都從數據中總結出首位數字為n的概率公式是:
P(n)=logd(1+1/n)
其中d取決于數據使用的進位制,對十進制數據而言,d=10。
在十進制中,首位數字出現的概率為:
這個定律是一個非常神奇的定律,它的適用范圍異常的廣泛,幾乎所有日常生活中沒有人為規則的統計數據都滿足這個定律。
比如說世界各國人口數量、各國國土面積、賬本、物理化學常數、數學物理課本后面的答案、放射性半衰期等等數據居然都符合本福特定律。
在假賬中,數字5和6是最常見的開頭數字,而不是符合定律的數字1,這就表明偽造者試圖在賬目中間“隱藏”數據。
曾是美國最大的能源交易商、年營業收入達近千億美元、股票市值最高可達700多億美元、全球500強中排名第七的安然公司,2001年在事先沒有任何征兆的情況下突然宣布破產;
事后人們發現安然公司在2001年度到2002年度所公布的每股盈利數字不符合“本福特定律”,這些數字的使用頻率與這一定律有較大的偏差,這證明了安然公司的高層領導確實改動過數據。
作為產品經理,對數據的敏感性及基礎的判斷,可以幫助我們在工作中更快的完成任務。
三、總結
AI產品經理要更理性,數學是鍛煉理性思維的最好的工具,了解并掌握基礎的概率論通識,能幫產品經理更好的理解算法模型和處理日常的數據處理工作。
最后問你個問題,如果戰斗中炸彈在你身邊爆炸,你應該迅速跳進那個彈坑,因為兩顆炸彈不大可能打到同一個地方。對嗎?
作者:老張,宜信集團保險事業部智能保險產品負責人,運營軍師聯盟創始人之一,《運營實戰手冊》作者之一。
本文由 @老張 原創發布于人人都是產品經理。未經許可,禁止轉載。
題圖來自Unsplash,基于 CC0 協議。
不明白為什么是1/3和2/3,求指教
你投三次骰子,三次不一樣和三次都一樣的概率是一樣的。
這個作者是不是沒有表達清楚。。。?
三次不一樣概率20/36,三次一樣是1/36,我也不知道作者是在想什么
額,表述有問題,是投三次篩子,每次都是同一個數,和每次是不同的數的概率是一樣的?;蛘哒f第一次是1,和第二次還是1的概率和第二次是2的概率是一樣的。每次和每次之間是獨立的。
作者三門問題理解完全錯誤,后面舉例就看出來了,幾率上漲是因為主持人只能選擇沒有車的門,在影響概率變化,你后面產品3種選擇完全是隨機的都是1/3不會改變好不
主持人必須選擇沒有車的門,如果開的是有車的,那就沒有問的意義了。因為換不換都是羊
對啊,所以我覺得你下面這句不對“如果我們在生活中遇到了類似的問題,例如開發新產品有3種選擇,我們確信有且只有一種選擇可以獲得成功。但是,我們完全無法判斷哪種更好,于是隨機選擇了一種。
還沒等我們開發,另外一家倒霉蛋公司剛好開發了第二種產品,而且惡評如潮。此時我們果斷更換到第三種模式,會大大提高我們的成功率?!?/p>
另外一家倒霉蛋公司剛好開發了第二種產品,而且惡評如潮,就是說這個是羊,前提是我們確信有且只有一種選擇可以獲得成功。所以這個時候換第三種嘍,不過這說的是理想狀態了。
真的挺好玩兒的,很有啟發。但是你要這樣想,如果你一定會換的話,就相當于只要在一開始不選到車就好了,也就是三分之二的概率。但是產品的例子不同,理想狀態是你們倆同時挑選3個黑箱中1個,全部都是隨機的三分之一,只不過他比你先打開箱子看了結果,這個跟你什么時候開箱看結果完全沒有關系的。