強化學習中,如何從稀疏和不明確的反饋中學習泛化?
強化學習(RL)為優化面向目標的行為提供了一個統一而靈活的框架,在解決諸如玩電子游戲、連續控制和機器人學習等具有挑戰性的任務方面取得了顯著的成功。在這些應用領域中,RL 算法的成功通常取決于高質量和高密度反饋的可用性。然而,將 RL 算法的適用范圍擴大到稀疏和反饋不明確的環境是一個持續的挑戰。
近日,谷歌 AI 發布以一篇博文討論了這個問題,筆者編譯整理如下:
研究此類問題中 RL 算法性能的一種常用方法是通過語言理解任務,在該任務中,代理接收自然語言輸入,并且生成復雜的響應以實現輸入中指定的目標,同時它只接收二進制形式的成功或者失敗反饋。
例如一個「盲」代理,通過遵循一系列自然語言命令(例如,「right,up,up,right」)來獲得迷宮中目標的位置。給定輸入文本,代理(綠圈)需要解釋命令,并根據這些解釋采取措施來生成操作序列(a)。如果達到目標(紅星),代理將獲得 1 次獎勵,否則沒有獎勵。由于代理無法訪問任何可視信息,因此代理完成此任務并歸納出新指令的唯一方法是正確理解指令。
可以看到,按照軌跡 a1、a2 和 a3 可以達到目標。
在這些任務中,RL 代理需要從稀疏(只有一些軌跡會產生反饋)和未指定(沒有區分有意義的成功和偶然的成功)反饋中學習泛化。重要的是,由于未指定反饋,代理可能會收到虛假的正反饋。這可能導致獎勵黑客行為,使得部署實際系統時出現意外和有害行為。
在「從稀疏和不確定的反饋中學習泛化」時,我們通過開發元獎勵學習(MeRL)來解決反饋不確定的問題,該方法通過優化輔助獎勵函數向代理提供更精細的反饋。MERL 使用一種新的探索策略與成功軌跡的記憶緩沖區相結合,并從稀疏反饋中學習。我們方法的有效性在語義分析上得到了證明,語義分析的目標是學習從自然語言到邏輯形式的映射(例如,將問題映射到 SQL 程序)。
本文研究了弱監督問題的設置,其目的是在沒有任何形式的程序監督的情況下,自動從問答對中發現邏輯程序。例如,給定問題「哪個國家獲得的銀牌最多?」以及與之相關的維基百科表格,代理需要生成一個類似 SQL 的程序,從而得到正確的答案(例如,「尼日利亞」)。
該方法在 WikiTableQuestions 和 WikiSQL 達到了最先進成果的基準,相比于之前的方法,其效果分別提高了 1.2% 和 2.4%。不同于以前的學習方法,MeRL 自動學習輔助獎勵函數而不需要任何專家演示,這使其應用更加廣泛。下圖是我們方法的概述:
本文方法概述。我們采用:
(1)涵蓋探索的模式,在內存緩沖區中收集一組不同的成功軌跡;
(2)采用元學習或貝葉斯優化,以學習輔助獎勵,為策略優化提供更精確的反饋。
元獎勵學習(MeRL)
MeRL 在處理不明確反饋方面的關鍵是,意外成功的虛假軌跡和程序對代理的泛化性能有害。
例如,代理可能只能處理上面迷宮問題的特定實例。然而,如果它在訓練中學習了虛假的實例,那么當它遇到沒有見過的指令時,很可能會失敗。為了改善這個問題,MeRL 優化了一個更精細的輔助獎勵函數,它可以根據軌跡的特征區分是否為意外成功。
MeRL 示意圖:通過從輔助獎勵模型中獲得的獎勵信號對 RL 代理進行訓練,而輔助獎勵則通過代理的泛化誤差進行訓練。
從稀疏反饋中學習
要從稀疏反饋中學習,有效的探索對于找到一系列成功的軌跡至關重要。本文利用 Kullback–Leibler (KL) 散度的兩個方向來解決這一挑戰。
在下面的例子中,我們使用 kl 散度來最小化固定雙峰(紫色陰影)和學習高斯(綠色陰影)分布之間的差異,這可以分別表示代理的最優策略和我們的學習策略的分布。KL 目標的一個方向學習一個分布,該分布試圖涵蓋兩種模式,而其他目標學習的分布尋求一種特定模式(即,它更喜歡一種模式而不是另一種模式)。我們的方法利用了 KL 集中于多個峰值模式的傾向來收集不同的成功軌跡集,并通過模式尋找 KL 在軌跡之間的隱含偏好來學習一個穩健的策略。
左:覆蓋模式 KL,右:尋優模式 KL
結論
設計區分最優和次優行為的獎勵函數對于將 RL 應用到實際中至關重要。這項研究在沒有任何人類監督的情況下,朝著創建獎勵函數的方向邁出了一小步。
在今后的工作中,我們希望從自動學習密集獎勵函數的角度來解決 RL 中的信用分配問題。
來源:https://ai.googleblog.com/2019/02/learning-to-generalize-from-sparse-and.html
本文來源于人人都是產品經理合作媒體 @雷鋒網,翻譯@王雪佩
題圖來自Unsplash,基于CC0協議。
- 目前還沒評論,等你發揮!