教用戶學習——斯金納箱的入門介紹
斯金納同學是一名很嚴肅的心理學家,他摒棄了傳統心理學中“心理活動”的不可考也不可靠的分析,將人的內部思維作為黑盒函數,對心理學的外在刺激與外在行為作為自變量和函數結果,進行科學實驗分析,這就是“行為心理學”。而“斯金納箱”,則是他的一項最著名的研究成果。
什么是斯金納箱?
1.行為與獎勵
實驗1:將一只很餓的小白鼠放入一個有按鈕的箱中,每次按下按鈕,則掉落食物。
結果:小白鼠自發學會了按按鈕。
這個實驗比“給狗狗搖鈴喂食”的巴普洛夫實驗更進了一步,建立行為。
何為學習?就是指將行為與操作者的需求建立相倚性聯系。換句話說,使行為者感覺到“行為”與“獎勵”是有聯系的。
只要通過將行為與獎勵不斷重復、建立聯系,就可以培養起操作者的行為模式。
獎勵可以培養行為習慣,很棒吧?那么看實驗2。
2.行為與懲罰
實驗2:將一只小白鼠放入一個有按鈕的箱中。每次小白鼠不按下按鈕,則箱子通電。
結果:小白鼠學會了按按鈕。
但遺憾的是,一旦箱子不再通電,小白鼠按按鈕的行為迅速消失。
“懲罰”,作為獎勵的邪惡雙生子,可以迅速建立行為模式。然而,懲罰具有一定的副作用:它建立起來的行為模式,來得快,去得也快。一旦懲罰消失,則行為模式也會迅速消失。
從長遠來看,懲罰對于行為的制止并不會起到顯著作用?,F實生活中,因為懲罰帶來的凡勃倫效應,有時甚至會使懲罰起反作用。(凡勃倫效應請參考20140307早讀課)
如果想要控制行為者不去進行某個行為時,應找到該錯誤行為的“獎勵物”,移除該獎勵,從而制止其錯誤行為。
然而,即使是獎勵,當不再掉落食物時,小白鼠的學習行為也會逐漸消失(雖然消失得稍慢一些)。而且這樣太浪費食物了!那該怎么辦呢?
接下來是實驗3。
3.固定時間獎勵
實驗3:將一只很餓的小白鼠放入斯金納箱中,由一開始的一直掉落食物,逐漸降低到每1分鐘后,按下按鈕可概率掉落食物。
結果:小白鼠一開始不停按鈕。過一段時間之后,小白鼠學會了間隔1分鐘按一次按鈕。
當掉落食物停止時,小白鼠的行為消失。
嘖嘖,失敗了。沒有培養起小白鼠連續按按鈕的行為,反而使小白鼠“偷懶”了。為什么?因為行為者知道短期內行為不會再得到獎勵?!冒伞W铌P鍵的實驗4。
4.概率型獎勵
實驗4:將一只很餓的小白鼠放入斯金納箱中,多次按下按鈕,概率掉落食物。
結果:小白鼠學會了不停按鈕。
當不再掉落食物時,小白鼠的學習行為消失速度非常慢。
隨著概率越來越低,小白鼠按按鈕的學習行為沒有變化,直至40-60次按按鈕掉落一個食物,小白鼠仍然會不停按按鈕,持續很久一段時間。
(同樣的,用鴿子做實驗,平均每5分鐘獲得變化時距的食物強化的鴿子,每秒能做出2-3次反應,連續反應長達15小時)
這個實驗模擬了為什么“賭博”——如簡單的老虎機,或者更復雜的賭博——會給予人類以依賴感,或者說,成癮性。
由于概率性給予結果,行為者很難直觀地判斷機制是否失效,所以單次的失敗不會給予明顯的“懲罰”效果,終止行為者的習慣,從而行為者的學習行為會一直持續下去。
然后是一個有趣的實驗5。
5.迷信的小白鼠?
實驗5:好吧,其實實驗5還是實驗4,概率型斯金納箱。
結果:這些小白鼠有很多培養出了奇特的行為習慣,比如撞箱子、比如作揖、比如轉圈跳舞。
這是因為掉落食物前,小白鼠正好在進行這些行為,于是產生了“迷信”。
許多游戲中傳出的謠言,比如“在中午抽獎容易得到大獎”,或者“帶滿一背包幸運兔腳可以獲得更好的裝備”之類,其原理與之相同。
嗯。斯金納同學的虐鼠實驗介紹完畢。
受啟發了
有啟發