算法人生(2):從“強(qiáng)化學(xué)習(xí)”看如何“活在當(dāng)下”

0 評(píng)論 2511 瀏覽 4 收藏 9 分鐘

強(qiáng)化學(xué)習(xí)是AI算法的一種,那這種算法的思路,是不是也可以用到自己身上呢?

AIGC時(shí)代里每種算法都各有特色,各有優(yōu)缺點(diǎn),如何應(yīng)用到業(yè)務(wù)層面還是要看實(shí)際的場(chǎng)景,但這些算法的思路也可以被應(yīng)用到個(gè)人的生活中。今天我們聊一聊在個(gè)人的生活中,可以從“強(qiáng)化學(xué)習(xí)”的思路里借鑒到什么。

強(qiáng)化學(xué)習(xí)概念,大意是說(shuō)智能體在環(huán)境中通過(guò)與該環(huán)境的互動(dòng)學(xué)習(xí)來(lái)學(xué)到如何最大化累積獎(jiǎng)勵(lì)的過(guò)程,它不像監(jiān)督學(xué)習(xí)那樣預(yù)先知道所有的標(biāo)簽(即正確的輸出),它必須在有限的、連續(xù)的互動(dòng)中積累經(jīng)驗(yàn),并通過(guò)這些即時(shí)反饋來(lái)調(diào)整行為。強(qiáng)化學(xué)習(xí)大概有以下幾個(gè)步驟:

  • 初始化策略:智能體首先有一個(gè)隨機(jī)或預(yù)設(shè)的初始策略來(lái)決定如何在不同狀態(tài)下行動(dòng)。
  • 觀察與行動(dòng):智能體觀察當(dāng)前環(huán)境狀態(tài),并按照當(dāng)前策略選擇一個(gè)行動(dòng)。
  • 環(huán)境反饋:執(zhí)行行動(dòng)后,環(huán)境會(huì)反饋新的狀態(tài)及相應(yīng)的獎(jiǎng)勵(lì)或懲罰。
  • 更新價(jià)值函數(shù)或策略:智能體會(huì)使用如Q-learning等算法,根據(jù)最新的狀態(tài)-行動(dòng)-獎(jiǎng)勵(lì)序列更新其評(píng)價(jià)函數(shù)或直接更新策略參數(shù),力求在未來(lái)選擇更高獎(jiǎng)勵(lì)的動(dòng)作。
  • 迭代優(yōu)化:重復(fù)上述過(guò)程,智能體持續(xù)地適應(yīng)環(huán)境,逐步優(yōu)化其策略,直至達(dá)到穩(wěn)定或滿足終止條件。

由上方的步驟,我們可以看出智能體在每一步都會(huì)觀察當(dāng)前狀態(tài),并基于此狀態(tài)決定行動(dòng),然后接收來(lái)自環(huán)境的獎(jiǎng)勵(lì)或懲罰作為反饋。

這個(gè)思路的關(guān)鍵在于,強(qiáng)化學(xué)習(xí)要求智能體在面對(duì)復(fù)雜、動(dòng)態(tài)變化的環(huán)境時(shí),聚焦于當(dāng)前的狀態(tài)和決策,而不會(huì)過(guò)分糾結(jié)于歷史經(jīng)驗(yàn)或未來(lái)的不確定性,然后通過(guò)迭代來(lái)尋求長(zhǎng)期的最大化累積獎(jiǎng)勵(lì)。雖然強(qiáng)化學(xué)習(xí)并不是完全忽視歷史信息或未來(lái)預(yù)測(cè),它也會(huì)通過(guò)優(yōu)化算法和模型設(shè)計(jì),確保智能體能夠有效地利用歷史信息并在當(dāng)前決策中考慮到未來(lái)可能的后果,它也會(huì)在平衡即時(shí)決策和歷史信息利用之間尋求最優(yōu)策略。

但總的來(lái)說(shuō),它的決策最終還是建立在當(dāng)前環(huán)境狀態(tài)的基礎(chǔ)之上。這種思想也可以說(shuō)是一種“完全融入當(dāng)前環(huán)境,不被過(guò)去和未來(lái)牽絆”的思想,也跟佛家和積極心理學(xué)推崇的“活在當(dāng)下”思想十分類似。

“活在當(dāng)下”這個(gè)概念,每個(gè)人都有自己獨(dú)特的理解。何為當(dāng)下?是指僅僅活在今天,還是這一周、這一月,甚至這一年?更深層次地,如何活,我們才能稱之為真正的“活”?

1.何為當(dāng)下?

佛陀與其弟子有一段“生命有多長(zhǎng)”的對(duì)話,大意就是佛陀問(wèn),人的生命有多長(zhǎng)?他的弟子們有的說(shuō)幾十年,有說(shuō)一晝夜,又有的說(shuō)一頓飯的功夫,一直到有位弟子說(shuō),是“一呼一吸間”。佛陀答,說(shuō)的好!我們的生命,長(zhǎng)度好像就是由無(wú)數(shù)個(gè)呼吸間組成的。因?yàn)槿松盁o(wú)?!保匀说降子卸嗌賯€(gè)“呼吸間”的數(shù)量是未知的,所以本質(zhì)上當(dāng)下就是“呼吸間”的長(zhǎng)度吧。

2. 何為“活”?

關(guān)于怎么活,佛陀也說(shuō)過(guò)“未來(lái)之心不可得,過(guò)去之心不可得,現(xiàn)在之心不可得”?!斑^(guò)去之心和未來(lái)之心不可得,其實(shí)不難理解,難的是為何現(xiàn)在之心也不可得?這里的“現(xiàn)在之心”,筆者理解的意思就是“當(dāng)時(shí)有雜”的活著(其實(shí)不同的人對(duì)這句話有不同的理解,這里只是闡述筆者自己的理解)。

簡(jiǎn)單點(diǎn)說(shuō),現(xiàn)在之心不可得,意思就是“當(dāng)時(shí)不雜”,做事的當(dāng)下就是去做事,不要夾雜其他的,心無(wú)旁騖的去做,做前不憂未來(lái),做完不念過(guò)去,心思如明鏡一直只反映每個(gè)當(dāng)下就好。就是那個(gè)經(jīng)典的禪宗故事,有人問(wèn)大師,怎么才能做到他那樣,他就說(shuō)一句“吃飯時(shí)就只是吃飯,睡覺時(shí)就只是睡覺”。這個(gè)聽起來(lái)簡(jiǎn)單,做起來(lái)其實(shí)很難,人難免在做事情的當(dāng)下有很多其他的牽絆,被過(guò)去的失敗經(jīng)驗(yàn)束縛,被未來(lái)的前景的擔(dān)憂,對(duì)某個(gè)人的失望,對(duì)自己有所期待,而這些都會(huì)影響當(dāng)下自己正在做的事情。

想要真正的“活在當(dāng)下”,需要不斷地練習(xí)“減少我執(zhí)”,當(dāng)然頂峰的狀態(tài)是“無(wú)我”,但就算達(dá)不到“無(wú)我”,“我的執(zhí)著”越少,當(dāng)下做事是就不會(huì)受“我”的感覺影響,進(jìn)而就更能投入到當(dāng)下的事情當(dāng)中。活在當(dāng)下,在于每一刻都全情投入,在于有意識(shí)地選擇我們的生活方式和心態(tài),在于是否每一刻我們都在真正體驗(yàn)“我”的生活,而不是被“我”的感覺牽引著,學(xué)著放下“我”,學(xué)著松開緊繃的感覺,只是去認(rèn)真地做事情,別無(wú)他想!在這樣的理解下,“活在當(dāng)下”就變成了一種生活的藝術(shù)。它鼓勵(lì)我們?cè)诿總€(gè)瞬間尋找意義,無(wú)論是平凡的日常還是非凡的時(shí)刻。

當(dāng)然,活在當(dāng)下并不是說(shuō)完全忽視過(guò)去的歷史經(jīng)驗(yàn),也完全不管未來(lái)的如何,它更多是在總結(jié)歷史經(jīng)驗(yàn)和對(duì)未來(lái)有所預(yù)測(cè)后,已經(jīng)決定了當(dāng)下要做什么之后,就融入的去做,不再糾結(jié)地做。不實(shí)際去做,就不會(huì)有反饋,就沒辦法迭代調(diào)優(yōu);既然決定做了,就心無(wú)旁騖地做,懊悔過(guò)去或者擔(dān)憂未來(lái)都無(wú)益于當(dāng)下要做的事情,還可能影響了當(dāng)下的反饋效果。所以,人想要更好的活在當(dāng)下,還需要控制著“瞬息萬(wàn)變”的心思意念,需要更高的“覺察”能力,需要更多的練習(xí)“靜心”,練習(xí)“修定”。不妨參考以下幾點(diǎn)試試:

  • 平日可多找些能讓自己“靜下來(lái)”的事情,慢慢讓散亂的心思收攝回來(lái)。
  • 學(xué)習(xí)時(shí)間管理,有效管理自己做事的效率,讓自己做事情時(shí)就認(rèn)認(rèn)真真做事;
  • 做完了事情就不再糾結(jié)之前應(yīng)該怎么樣,也不花過(guò)多的時(shí)間擔(dān)憂還沒有發(fā)生的事情。做到“過(guò)去不戀,未來(lái)不迎,當(dāng)時(shí)不雜,物來(lái)順應(yīng)”,這樣我們的生活也能做到少內(nèi)耗,少焦慮些了。

每個(gè)人對(duì)“活在當(dāng)下”的理解都不盡相同。筆者在這里分享了自己的思考,也期待聽到你的聲音。歡迎在評(píng)論區(qū)留下你的想法一起探討。

本文由 @養(yǎng)心進(jìn)行時(shí) 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載

題圖來(lái)自 Pixabay,基于 CC0 協(xié)議

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒評(píng)論,等你發(fā)揮!