算法人生(1):從“強化學習”看如何“戰勝拖延”

0 評論 731 瀏覽 4 收藏 13 分鐘

強化學習是一種機器學習方法,是一個動態的、可迭代的過程,需要進行試錯,并找到正確的策略。本文從“強化學習”看如何“戰勝拖延”,一起來看看吧。

強化學習簡介:

強化學習(Reinforcement Learning, RL)是一種機器學習方法,它模擬了有機體在環境中的學習過程,通過不斷嘗試和獲得反饋來優化其行為策略。在強化學習中,智能體并不是被告知應該采取何種行動,而是基于執行特定動作后獲得的獎勵或懲罰來調整其行為,旨在讓模型通過嘗試和錯誤,學習如何在特定環境中采取行動以最大化累積獎勵。

強化學習的步驟大致為:

  1. 初始化:智能體(學習主體)首先與環境互動,根據初始策略選擇一個動作。
  2. 執行動作:智能體在當前狀態下執行一個動作,環境對此作出響應,進入一個新的狀態。
  3. 接收獎勵:智能體從環境接收一個獎勵信號,該信號反映了環境對智能體當前動作價值的評價,可能是是正向的激勵或負向的懲罰。正向激勵可以理解為當智能體執行的動作導致環境產生了有利的結果,或者朝著目標更近了一步時,環境會給智能體一個正向獎勵,如+1,以此來表明這次動作是值得學習并保留的策略。負向懲罰則是智能體的動作導致了不利結果或者遠離了目標,環境會給智能體一個負向獎勵,如-1,以此告訴智能體應盡量避免在未來采取同樣的行動。
  4. 學習:智能體根據接收到的獎勵和新的狀態更新其內部的價值函數、策略或者其他學習參數。
  5. 決策:根據更新后的策略選擇下一個動作,再次進入執行動作與接收獎勵的循環。

這個過程會一直持續,直到智能體收斂到一個相對穩定的策略。強化學習是一個動態的、迭代的過程,需要大量的試錯和時間來找到最優策略。通過不斷地與環境交互,模型才能學習到如何在給定的任務中做出最佳決策,以實現長期目標的最大化。

由強化學習的原理,我們可以看出強化學習有以下常見的思路:

  • 識別環境:智能體首先需要定義環境,這個環境決定了學習任務的規則和邊界。
  • 小步快跑:這跟敏捷開發的思路也類似,選定一個動作,環境做出響應,根據結果調整策略,進行下一個動作。
  • 強正避負:正向行為的結果保留或發揚光大,負向行為的結果警惕不要再犯。
  • 持續調優:同樣跟敏捷開發類似,強化學習的過程是個動態持續調整的過程,只有不斷地試錯調整才能讓讓長期價值最大化。

對于拖延來說,我們同樣可以采用類似的思路來克服拖延癥對自身的影響:

1、識別原因,分解目標(類似強化學習中的狀態與動作)

拖延產生的原因可能很多,比如完美主義,害怕失敗,約拿情結,被動攻擊的心理或者是本身就討厭做這件事等等,針對不同的拖延癥原因,需要針對性地先解開“心結”,也就是識別自己拖延的原因,然后才能針對性的找到解決方法。

在識別自身拖延產生的原因之后,為了能走出拖延,需要將“宏偉的目標”分解成一個個小目標,以減輕給自己的壓力過大,從而更沒有動力戰勝拖延。

舉個例子,有的時候我們并不是討厭做這件事情,但總是給自己找理由拖著不做,在對自我分析后,發現是“完美主義”在作祟,內在的潛意識總想要做到最好,才能對得起自己,對得起別人的期待,但是越是這樣的自我期待,越讓自己拖著不做,等待著以后的“好狀態”,“好時機”來讓未來變得“完美”, 這時候需要先調整自己對做事的認知,學習接受不完美是常態。西游記里,唐僧一行取來的經書還因為落入水里少了一角,孫悟空勸唐僧說:天地本不全,何況是經書呢!此外,有時候適當地向下比較,學習原諒不完美,設定合理的目標和期望,遵循效果優先等等都是很好的方法應對“完美主義”產生的拖延。

在了解了自我拖延的原因是完美主義之后,就需要為自己克服拖延的目標分解成小任務,比如有件事因為完美主義被拖了很久,做起來可能需要花上幾天的時間,那此時可以把這件事情分解成幾個階段性的小目標,每個小目標只有半天的工作量,然后不要管整件事情有多少個半天,先只想第一個半天的工作量,這樣減化了工作量后,可以在這半天范圍內盡可能的“完美”,但時間一到,就不再糾結這個半天的結果是否完美與否,整理下思路進入下個半天的“完美”準備工作中。

2、強正拖負,及時反饋(類似強化學習中的獎懲機制)

對于造成我們拖延的刺激物(思想)要警醒,比如最近某個流行的劇更新了,很久沒買能能讓自己開心的手辦了,這些思想在某些場景下能讓我們及時獲得應有的“放松”,是正向的。但在拖延的場景下,這些刺激物(思想)就會加重我們的拖延,本來就因為各種原因不想做,這些刺激物(思想)正好給了我們理由可以不做,心想著等做完了那些刺激物(思想)的事情再做這個“被拖延”的事情吧,可誰知道多巴胺刺激讓自己“停不下來”,從而錯過了“被拖延之事”最該做的時間點。

這時候,我們應該警惕這類型的刺激物(思想),如果發現它們會加重自身的拖延,可以采用以下方法來面對負面刺激物(思想):

  • 延遲滿足:也就是延遲做刺激事情,當看到刺激物(思想),告訴自己等2個小時就可以滿足自己,而不是當下滿足自己;
  • 替換刺激物:也就是為導致拖延的刺激物(思想)找到替換物(思想),此處的替換物(思想)需要不會讓自己上癮,但是又可適當“滿足”自己,比如很想刷短視頻放松下,但是當前又有必須要做的事情,可以喝一杯咖啡來放松,這個方法也滿足了自己放松的想法,又不會占用太多時間;
  • 更大的獎勵滿足:在拖延場景下,可以用更大的獎賞物來誘惑自己先做完“被拖延的事情”。比如,一口氣把拖延的事情做完后,可以買個最愛劇的點映券,一口氣看完想追的劇,就不用等后面幾天的更新了。(想想就很美的獎勵)

同樣地,對于能讓我們克服拖延的刺激物(思想),也需要識別并發揚光大,比如自己想拖延不學習的時候,一看到旁邊的學霸,不服輸的勁就來了,就很想跟他比個高下,然后就學起來了。而看不到這個學霸時,就沒什么“比”的動力,就會拖著不學習。再比如,發現自己在定時定量工作后就固定休息一段時間,這樣能有效減少自己拖延的頻率或縮短拖延的時間,那么以后就可以重復沿用、多用這一策略。

注意,不同的方法在不同的場景下,產生的效果是不同的,同樣的方法有的場景會產生正向效果,有的場景則會產生負面效果,因此在應用時要根據場景小心甄別方法的實用性,以及要掌握好平衡,再適用的方法一旦過了度,到了“執著”,也會轉積極為消極的效果的。上述的舉例中,如果過度運用“比”或者是在其他不適合“比”的場景應用這個思想,都會帶來負面的效果,大家需要小心甄別。

以上方法,舉例僅是為了讓大家了解方法如何用,具體還要根據各自的情況,小心甄別。

3、持續調整,最大化效果(類似強化學習中的策略迭代):

在治療拖延癥時,通過不斷嘗試不同的方法,觀察并體驗哪種方法帶來的即時效果最好。同時,個體需要不斷反思自己的行為和策略,根據完成任務的實際情況再進行調整,比如調整時間管理方法,或者優化工作環境以減少干擾等。

盡管強化學習中的算法通過短期獎勵來學習,但其最終目標是優化長期的累積獎勵。而在治療拖延癥的過程中,雖然采用了分解任務和及時的獎懲策略,但最終目的是幫助個體克服拖延,提高長期的工作效率和生活質量。所以個體也需要持之以恒地執行新的行為模式,并根據實際效果進行微調,最終形成一個適合自己的、能夠有效克服拖延的行為習慣系統。劃重點:任何行為習慣如果沒有得到有效地“重復”,都可能被遺忘或思維鏈接被弱化而起不到應有的效果,所以持續調優很重要!

拖延,已經成為了現代人的普遍問題,工作壓力大,個人對自我的期待高,害怕讓別人失望等等都會讓我們或多或少的有拖延心理。但只要自己愿意“識別自我”、“持續改善”,總能找到法子來應對!

生活中的思想很多是相通的,無論是程序還是人生,都可以互為啟發,互為扶持,互為激勵!如果你也有更好的想法,歡迎分享交流!

本文由 @養心進行時 原創發布于人人都是產品經理,未經許可,禁止轉載

題圖來自 Unsplash,基于 CC0 協議

該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發揮!