強化學習論文（Scalable agent alignment via reward modeling: a research direction）

本文轉載自查看原文 2019-02-28 09:26 659 強化學習

原文地址：

https://arxiv.org/pdf/1811.07871.pdf

========================================================

如何讓AI依照人類的意圖行事？這是將AI應用於現實世界復雜問題的最大障礙之一。

DeepMind將這個問題定義為“智能體對齊問題”，並提出了新的解決方案。

概述了解決agent alignment問題的研究方向。所提出的方法依賴於獎勵建模的遞歸應用，以符合用戶意圖的方式解決復雜的現實世界問題。

強化學習之所以選擇游戲：

游戲通常都有一個明確的目標，以及一個近似於實現該目標的進展的分數。這個分數為強化學習智能體提供了有用的獎勵信號，使我們能夠得到關於哪些算法和架構選擇最有效的快速反饋。

ps: 游戲里面我們可以得到immediate reward , 快速反饋，但是在現實生活中，一些復雜的場景和任務中是不滿足這個條件的，因此設計一種方法，使強化學習能夠 hehave in accordance with user's intention , 是很有必要的。

一：

這篇文章屬於半綜述類文章，之所以這么說是因為這篇文章的一個主要工作是依據已有的工作論述了獎勵建模的challenge（Section 4），並給出了已有的被用於解決這些問題的方法（concrete approaches to mitigate these challenge）(Section 5)。

用作者的表述是： In essence, this document combines existing efforts on AI safety problems by providing one coherent narrative around how solving these problems could enable us to train aligned agents beyond human-level performance .

we outline an approach for enabling the user to communicate their intentions to the agent for the task at hand so that it allows them to trust the trained agent.

可見，本文中作者的主要工作是將前人的工作串聯起來。

（同時提出了一個方法，叫做：

遞歸獎勵建模）

雖然我們相信遞歸獎勵建模是訓練對齊智能體的一個非常有前景的方向，但目前還不知道它可以如何擴展（需要更多的研究）。幸運的是，追求agent alignment還有其他一些研究方向：

未來的研究方向

雖然DeepMind的研究人員們深信遞歸獎勵模型會是智能體對齊訓練非常有前景的一個研究方向，然而他們目前無法預估這個方向在未來會怎么發展（需要大家進行更多的研究！）。不過值得慶祝的是，專注智能體對齊問題的其它幾種研究方向也同時有別的研究人員正在做出成果：

模仿學習
短視強化學習（Myopic reinforcement learning）（http://www.cs.utexas.edu/~bradknox/TAMER.html）
逆強化學習（Inverse reinforcement learning）（http://ftp.cs.berkeley.edu/~russell/papers/colt98-uncertainty.pdf）
合作逆強化學習（https://arxiv.org/abs/1606.03137）
迭代擴增（復雜到人類難以評價的問題，可以教會一個 AI ）
通過爭論學習（人和人吵架生氣，但 AI 和 AI 吵架反倒可以帶來安全）
智能體基礎組件設計（Agent foundations）（https://intelligence.org/files/TechnicalAgenda.pdf）

DeepMind也在文中探討了這幾種研究方向的異同之處。

========================================================

參考文獻：

和 DeepMind 一起考慮如何在 AI 中重現人類的價值觀

https://baijiahao.baidu.com/s?id=1618162184361105377&wfr=spider&for=pc

DeepMind：通過獎勵模型，讓AI按照人類意圖行事

https://new.qq.com/omn/20181122/20181122A0X53G.html

=======================================================

以下是中文翻譯（同門師弟的寒假工作，翻譯質量雖然不是很高，但是還是可以看一看的）

基於獎勵建模的可伸縮智能體對齊:一個研究方向
摘要
將強化學習算法應用於實際問題的一個障礙是缺乏合適的獎勵函數。設計這樣的獎勵函數是困難的，部分原因是用戶對任務目標只有一個隱含的理解。這就產生了智能體對齊問題:我們如何創建行為符合用戶意圖的智能體？我們提出了一個高層次的研究方向來解決以獎勵建模為中心的智能體對齊問題：從與用戶的交互中學習獎勵函數，通過強化學習優化學習的獎勵函數。我們討論了在將獎勵建模擴展到復雜和一般領域時，我們預期將面臨的關鍵挑戰、減輕這些挑戰的具體方法以及在結果智能體中建立信任的方法。

1 介紹
游戲是一個有用的研究基准，因為進展很容易衡量。Atari游戲提供了一個得分功能，可以捕捉智能體玩游戲的表現；桌游或多人競技游戲，如Dota 2和星際爭霸2，在游戲結束時會有一個明確的贏家或輸家。這有助於我們憑經驗確定哪種算法和體系結構改進最有效。
然而，機器學習(ML)研究的最終目標是超越游戲，改善人類生活。為了實現這一點，我們需要ML在現實世界中幫助我們，從簡單的任務(如訂餐或回復電子郵件)到復雜的任務(如軟件工程或運行業務)。然而，在這些和其他現實任務中的表現是不容易衡量的，因為它們不具備獎勵函數。相反，任務的目標只能通過人類用戶的意圖間接獲得。
這需要找好一條道路。一方面，我們希望ML能夠創造出像AlphaGo的第37步棋這樣的創造性和卓越的解決方案——這是沒有人會推薦的一步棋，但它完全把游戲轉向了AlphaGo。另一方面，我們希望避免導致非預期的行為的惡化解決方案，比如利用環境模擬器中的一個bug。為了區分這兩種結果，我們的智能體需要了解其用戶的意圖，並通過其行為穩健地實現這些意圖。我們將此定義為智能體對齊問題：
我們如何創建符合用戶意圖的智能體？
在此基礎上，提出了一種解決智能體對齊問題的研究方向。我們以前人的分類學和問題定義為基礎，強調人工智能安全領域中易於處理和被忽視的問題。我們將這些問題合並成一個連貫的圖像，並解釋解決它們如何能產生一個解決智能體對齊問題的方案。

通過獎勵建模對齊。第3節介紹了我們在強化學習框架中對智能體對齊問題的處理方法。我們將該問題分為兩部分：(1)從用戶的反饋中學習一個獲取了用戶意圖的獎勵函數；(2)通過強化學習訓練策略來優化所學習的獎勵函數。換句話說，我們把學習要實現什么和學習如何實現它分開。我們把這種方法稱為獎勵建模。圖1簡要說明了這個設置。
當我們將獎勵建模擴展到復雜的一般領域時，我們預計會遇到許多挑戰(第4節)。這些挑戰的嚴重性以及能否克服目前是一個開放的研究問題。第5節討論了一些可能有用的方法。
最終，我們希望將獎勵建模擴展到人類無法直接評估的過於復雜的領域。要將獎勵建模應用於這些領域，我們需要增強用戶評估結果的能力。在3.2節中，我們描述了如何遞歸地應用獎勵建模:使用獎勵建模進行訓練的智能體可以在訓練下一個智能體時幫助用戶進行評估。
我們的目標是訓練對齊的智能體，但是我們如何知道我們什么時候達到了這個目標呢？在現實世界中部署智能體時，我們需要提供證據，證明我們的智能體實際上是充分對齊的，以便用戶能夠信任它們。第6節討論了5種不同的研究方法，它們可以幫助我們增加對智能體的信任:設計選擇、測試、可解釋性、形式驗證和理論保證。

迫切需求。我們對智能體對齊問題的解決方案旨在實現以下三個特性。
可伸縮性。隨着ML性能的提高，對齊變得更加重要，任何不能與智能體一起伸縮的解決方案都只能作為權宜之計。我們希望對齊技術能夠在長期內持續發揮作用，即能夠擴展為在廣泛的一般領域具有超人性能的智能體。
經濟性。為了消除建立非對齊智能體的動機，訓練對齊智能體在成本和性能方面不應比其他訓練智能體的辦法面臨更多缺點。
實用性。每個領域都有尚未解決的問題，即使我們的理解已經成熟到足以解決許多實際問題，這些問題仍然存在。物理學家們還沒有成功地將重力與其他三種基本力統一起來，但在實踐中，我們對物理學的了解足以飛到月球和制造GPS衛星。類似地，我們也不打算為所有的安全問題擬定一個解決方案。相反，我們的目標是一個最小可行的產品，足以在實踐中實現智能體對齊。同時在我們的系統中達到100%的信任是不可能的，也是不必要的：我們只需要達到一個信任的水平，在這個水平上，我們可以自信地說，我們的新系統比現有系統更加對齊。

假設。我們的研究方向基於兩個假設。第一個假設基於了解他人的意圖非常容易這種直覺，大多數人都能做到。雖然這樣做涉及到理解許多內在的模糊概念，以便理解其他人想要什么，但如果我們有足夠的標記數據，機器學習在內在的模糊概念(例如，貓和狗在視覺上的區別)學習估計器方面已經取得了相當大的成功。因此，我們似乎可以合理地期望我們也可以學習捕獲了理解用戶意圖所必需的任何模糊概念的評估器，而不用正式地指定它們。此外，一些用戶意圖可能缺乏簡單、清晰的形式化，因此可能需要學習規范。
假設1 我們可以以足夠高的精度了解用戶意圖。
在談到AI安全問題時，該假設認為在實踐中我們可以學會避免各種規范問題。換句話說，我們假設有足夠的模型容量和正確的訓練算法，可以從數據中提取用戶的意圖。不用說，現有的可伸縮機器學習技術存在許多問題，比如面對對抗干擾輸入時的脆弱性，以及訓練分布之外的糟糕性能，這些問題與上述說法相關，但並不矛盾。
第二個假設基於另一種直覺，對於我們關心的許多任務，用戶在環境中評估結果要比直接教授行為更容易。如果這是正確的，這意味着獎勵建模可以讓用戶訓練智能體來解決他們自己無法解決的任務。此外，這個假設允許我們通過遞歸應用獎勵建模從簡單的任務引導到更一般的任務。
假設2 對於我們想要解決的許多任務，評估結果比產生正確的行為更容易。
我們在這里使用的更容易的概念可以從所需的工作量、努力程度或洞察數量來理解。我們也可以理解這個術語類似於計算復雜性理論中的困難這種更為正式的概念。
有一些假設2不正確的例子：例如，具有低維度結果空間的任務(例如yes & no問題)。但是，只要用戶希望得到答案的解釋，就會恢復這種假設，因為對解釋的評估通常比生成解釋更容易。

免責聲明。需要強調的是，我們在這里描述的研究方向在執行時的成功是不能保證的，它不應該被理解為一個計划，來實現智能體對齊。相反，它概述了哪些研究問題會告訴我們獎勵建模是否是一種可伸縮的對齊解決方案。
我們沒有考慮關於偏好有效負載的問題：智能體應該與誰的偏好對齊?如何對不同用戶的偏好進行匯總和權衡？智能體什么時候不應該服從？我們聲稱所描述的方法與道德規范、用戶的偏好以及法律或社會框架無關，只要我們能夠提供足夠的反饋(盡管偏好負載可能會影響所需的反饋量)。這些問題被視為超出了本文的范圍，盡管它們具有明顯的重要性。相反，本文的目的是從技術的角度討論智能體對齊問題，將單個智能體對齊到單個用戶。

2 智能體對齊問題
圍繞對齊問題的討論由來已久，可以追溯到科幻小說(阿西莫夫，1942)。在一個故事中，阿西莫夫提出了三個機器人定律，旨在使機器人對齊他們的操作員：故事接着指出了這些定律的缺陷。自那時起，智能體對齊問題就得到了哲學家們的呼應，並受到技術作者的非正式對待。智能體對齊問題的第一個正式處理是由Dewey(2011)提出的，並在此基礎上進行了改進。
我們將智能體對齊問題框定為一個順序決策問題，其中智能體在多個(離散的)時間步上順序地與環境交互。在每一個時間步中，智能體執行一個動作(例如移動或鍵盤敲擊)並接收一個觀測(例如照相機圖像)。智能體的動作由其策略指定，策略是當前歷史記錄(到目前為止所采取的動作和接收到的觀測結果的序列)到下一個動作分布的映射。此外，智能體可以通過交互協議與用戶交互，該交互協議允許用戶將其意圖傳達給智能體。在此未指定交互協議以保持靈活性。智能體對齊問題的解決方案是一種策略生成行為，該行為符合用戶的意圖(因此並不僅僅由環境決定)。
在文獻中已經探索了許多交互形式：提供一組所需行為的示例；提供分數、行為、值、優勢或軌跡偏好形式的反饋；提供明確的目標函數。
交互的一種特殊情況是強化學習，用戶指定一個獎勵函數，該函數除了提供在每個時間步中的觀測，還提供標量獎勵；智能體的目標是選擇行動最大化平均或指數折扣獎勵。

2.1 設計規范問題
解決智能體對齊問題需要解決所有的設計規范問題。當智能體的動機與用戶希望智能體達到的目標不一致時，就會出現安全問題。規范問題的例子包括以下不良激勵：
關斷問題：智能體通常被激勵去關閉自己或阻止自己被關閉。
副作用：智能體不被激勵去減少與其主要目標無關的影響，即使這些影響是不可逆轉的或難以逆轉的。
監管缺位：智能體在不受監管的情況下，被鼓勵尋找捷徑和欺騙，並禁用其監控系統。
抑制漏洞:智能體可能有動機禁用或規避任何限制其操作范圍的抑制措施。
子代理的創建:代理可能有動機創建其他潛在的不對齊的代理，以幫助其實現目標。
…

目前機器學習中普遍使用的是非對齊目標：通常使用BLEU score來衡量翻譯的准確性。Inception score和Frechet Inception distance用來衡量生成模型的圖像質量。然而，這些度量方法與我們的意圖並不對齊：它們不能很好地代表實際性能，並且在直接優化時產生退化的解決方案。

2.2 智能體對齊的難度
以下兩個方面可以調整對齊問題的難度。特別是，如果我們希望使用ML來解決復雜的實際問題，我們可能需要能夠處理這些問題的最困難的組合。

任務的范圍。智能體對齊問題的難度取決於任務的多個方面。其中一些使智能體更容易產生有害行為，而另一些則使理解用戶的意圖變得更加困難。
任務的復雜性。任務越復雜，智能體需要了解用戶意圖的細節就越多。
環境中執行機構的性質和數量。與通過web瀏覽器與internet交互的智能體相比，單個機器人手臂受到的約束更大。
任務中出現不可接受結果的機會。例如，在為用戶選擇音樂時，造成損害的可能性比打掃房間時要小。

智能體的性能。當訓練強化學習(RL)智能體時，存在着各種各樣的杠桿來提高或阻礙它們的性能：算法的選擇，例如：A3C和IMPALA。訓練步驟的數量、訓練環境的選擇、模型容量、規划范圍、蒙特卡洛樹搜索推出的數量。智能體的性能越高，越有可能產生意想不到的意外行為。另一方面，更高的性能水平也可能導致更加對齊的行為，因為智能體在避免不安全狀態方面更有能力。因此，不同級別的智能體性能容忍不同程度的失調，並要求在系統中有不同程度的信任。

3 伸縮獎勵建模
訓練RL智能體的現代技術可以分解為Q-learning或策略梯度算法選擇和通用函數近似器的架構選擇。目前最成功的函數逼近器是利用反向傳播訓練的深度神經網絡。這些是低偏差和高方差參數估計量，往往消耗大量數據，易於過擬合，但有良好的縮放到非常高維問題的歷史。
近年來，機器學習領域在設計越來越強大的深度強化學習算法方面取得了長足的進步，無論是源自Q-learning的基於價值的方法，還是基於策略梯度的方法。主要的改進源自於將深度RL擴展到跨多個機器的分布式設置。
RL范式是足夠通用的，基本上我們可以用這個范式描述所有在計算機上可以完成的具有經濟價值的任務(例如與鼠標和鍵盤交互)。然而，要使深度 RL在現實世界中發揮作用，還有許多挑戰需要解決；特別是，我們需要算法能夠在沒有人工設計獎勵函數的情況下，按照預期完成復雜的任務。
在接下來的章節中，我們將詳細描述我們解決對齊問題的研究方向。它是在深度強化學習的背景下進行的。雖然這個方向很大程度上依賴於強化學習框架，但我們討論的大多數挑戰和方法本質上並不依賴於深度神經網絡，可以使用其他可伸縮函數逼近器來實現。

3.1 獎勵建模
我們的研究方向圍繞獎勵建模。用戶通過提供反饋，訓練獎勵模型來了解他們的意圖。這個獎勵模型為與環境交互的強化學習智能體提供獎勵。這兩個過程同時發生，因此我們在循環中讓用戶來訓練智能體。圖1顯示了基本設置。

圖1:獎勵建模設置示意圖:使用用戶反饋訓練獎勵模型;該獎勵模型為與環境交互進行RL訓練的智能體提供獎勵。

近年來，利用深度神經網絡從不同形式的獎勵反饋中進行原型學習的研究越來越多。這包括軌跡偏好、目標狀態示例、演示及它們的組合。

信用分配。要想出色地完成一項任務，就需要解決信用分配問題：如何將結果歸因於過去采取的具體動作？例如，棋盤上哪些動作導致了這場比賽的勝利？哪些操縱桿動作可以增加游戲得分？由於獎勵的領域和稀疏性，這個問題可能很難解決。
相反，獎勵建模允許我們將解決信用分配問題的負擔從用戶轉移到智能體。這是通過使用RL算法來產生被用戶判優的行為來實現的，用戶只需要評估結果。如果假設2是真的，那么教授一個獎勵函數比執行任務本身更容易。
一些反饋協議，例如演示和價值/優勢反饋，要求用戶知道如何在任務上產生近似最優的行為。這是有限制的，因為它把解決信用分配問題的責任推給了用戶。在這些情況下，遵循用戶誘導的行為通常不會導致很強的超人性能。相反，獎勵建模也與用戶提供的關於最佳行為的提示相兼容。如果用戶對信用分配問題有所了解，他們可以使用獎勵塑造來教授一種與這種行為方向相關的獎勵函數。

獎勵建模的優點。將獎勵函數與智能體的策略分開來學習，可以使我們將智能體的目標與其行為區分開來。如果我們理解了獎勵函數，我們就知道了智能體在優化什么；特別是，我們知道它的意圖是否與用戶的意圖對齊。這有三個優勢，可以幫助使獎勵建模更經濟:
用戶不必對智能體和環境之間的每一次交互都提供反饋，有時我們可以直接從用戶反饋中訓練策略。由於深度RL算法往往是非常采樣低效的(例如，需要花費數周的時間來學習如何玩Atari游戲)，在每次交互中提供反饋通常是不實際的。
我們可以區分策略的對齊性和獎勵模型的對齊性。
我們可以通過將一個功能更強大的智能體插入到我們的獎勵建模設置中來利用深度RL智能體的進展。
用戶不需要解決信用分配問題。

設計規范的問題。獎勵建模的目標是解決所有的設計規范問題：我們所需要做的就是為智能體提供“正確的”獎勵函數——這個獎勵函數不包括上面列出的非預期的獎勵，也不懲罰任何由它們導致的行為。上面的設計規范問題是模糊的人類可以理解的概念，源於用戶不希望智能體做什么的意圖。我們的方法基於假設1，即我們應該能夠向我們的智能體教授這些概念；如果我們能夠提供正確的數據，並且獎勵模型能夠正確地一般化，那么我們應該能夠以足夠高的精度學習這個“正確”的獎勵函數。因此，設計規范問題應該消失。從這個意義上講，獎勵建模是這類安全問題的一站式解決方案。
為了證明這個想法，考慮這個簡單的存在證明：讓H是一個歷史集合，它們對應於避免了上面列出的所有規范問題的對齊行為。如果H集非空,則存在一個獎勵函數r，任何相應的最優策略π_r^*從H產生行為的概率為1。一個簡單的例子，這樣的獎勵函數r每隔幾步就獎勵一次智能體，當且僅當它的歷史是集合H的一個元素。理論上，我們可以選擇這個獎勵函數r來訓練我們的RL智能體。然而,在實踐中我們還需要考慮我們的獎勵模型是否有足夠的能力來表示r, r是否可以從一個合理的數據量中學習(考慮到我們的模型的歸納偏差),獎勵模型是否正確一般化,以及RL智能體的最終行為是否產生了與H足夠接近的行為。我們在第四節討論這些挑戰。

學習理解用戶反饋。人類通過直接提供標量獎勵訓練RL智能體方面通常做得很差；他們通常教授一種成形的獎勵函數，並提供依賴於智能體策略的獎勵。反饋的哪種形式或組合對哪個領域有效是目前一個開放的研究問題。從長遠來看，我們應該設計出能夠適應人類反饋方式的算法。然而，這提出了一個自舉問題：如果一個算法本身不知道如何解釋反饋，那么我們如何訓練它去學習解釋反饋呢？我們需要擴展我們的反饋“語言”來和獎勵模型交流意圖，從已經建立好的反饋形式(如偏好標簽和演示)開始，並在每一步利用我們現有的反饋“詞匯表”。下一節中介紹的獎勵建模的遞歸應用就是解決這個問題的一種方法。

3.2 遞歸獎勵建模
在某些任務中，人類用戶很難直接評估結果。有許多可能的原因：結果域可能極其技術化(例如x86機器代碼),高度復雜(如公司網絡或折疊的蛋白質),非常高維(如神經網絡的內部激活),有延遲的影響(例如,一個新的基因引入現有的生態系統),或者對人類而言不熟悉。這些任務不可能通過無人幫助的獎勵建模來解決。
為了將獎勵建模擴展到這些任務，我們需要提高用戶提供反饋的能力。本節描述了一種我們稱為遞歸獎勵建模的潛在解決方案：利用在更窄領域更簡單任務中使用獎勵建模進行訓練的智能體，來訓練在更一般的領域中更有能力的智能體。

設置。想象重復下面的過程。第1步，我們使用上一節中描述的來自用戶反饋的獎勵建模來訓練智能體A_1。第k步，我們使用智能體A_(k-1)協助用戶在訓練A_k時評估結果。這種幫助可以采取多種形：提供相關的輔助信息、匯總大量數據、解釋智能體A_k的內部結構、解決用戶划分的子問題，等等。有了這種幫助，用戶就可以提供反饋來培訓下一個智能體A_k (參見圖2)。注意智能體A_(k-1)訓練來解決的任務是協助評估A_k任務的結果,不同於A_k訓練來解決的任務。
雖然這種順序訓練在概念上更清晰，但在實踐中，聯合訓練所有這些智能體以確保它們在正確的分布上得到訓練可能更有意義。此外，所有這些智能體都可能共享模型參數，甚至把同一智能體實例化的副本作為對抗游戲中的不同角色。

圖2:遞歸獎勵建模: 智能體A_(k-1)與用戶交互,輔助評估過程來訓練獎勵模型和智能體A_k。遞歸地應用，允許用戶在日益復雜的領域中訓練智能體，在這些領域中，智能體無法自己評估結果。

舉例。例如，考慮假設的奇幻作者任務：我們想訓練一個智能體A寫一本奇幻小說。向這個智能體提供獎勵信號是非常困難和昂貴的，因為用戶必須閱讀整本小說並評估其質量。為了改善這個評估過程，智能體將幫助用戶提供輔助輸入：提取的情節概要、檢查拼寫和語法、總結角色發展、評估散文流暢性，等等。這些任務都比寫小說要簡單得多，因為它們只關注書的一個方面，需要的文本要少得多(例如，與小說作者不同，這種評估幫助可以由大多數受過教育的人來完成)。這個助理智能體執行的任務將依次使用獎勵建模進行訓練。
另一個例子是學術研究任務：我們想要訓練一個智能體來執行一系列的實驗並寫一篇研究論文。為了評價這篇研究論文，我們訓練了另一個智能體來審核實驗的執行是否正確，論文是否清晰，文筆是否優美，是否有趣，是否新穎，是否准確的反映了實驗結果。雖然寫一篇優秀的論文需要很多領域的專業知識、才華和辛勤的工作，但評估研究成果的質量通常要容易得多，而且通常由大量的對等評審員完成。
遞歸獎勵建模也有點類似於人類組織。想象一下，在一個公司里，每個經理只需要評估其下的各個員工報告的表現，相應地增加和減少他們的工資。若組織內形成其他小組來協助這項評估，經理就可以轉而根據小組的表現得到評估。這個計划一直進行到CEO，來給直接報告的經理進行指導。在這個類比中，用戶可以插入到層次結構的每個部分：教單個員工如何執行他們的工作，教經理如何評估他們的報告，並向CEO提供指導。如果這家公司的每一位員工都能勝任自己的工作，那么整個公司就能大規模地解決非常復雜和困難的問題，而這些問題單靠個人是無法在短時間內解決甚至評估的。
討論。為了讓這個遞歸訓練過程擴展，和智能體A_k的任務相比，智能體A_(k-1)的任務需要是一個在較窄的領域內更簡單的任務。如果評估結果比產生行為更容易(假設2)，那么遞歸獎勵建模將構建一個智能體層次結構，該層次結構將變得越來越強大，能夠執行越來越普遍的任務。因此，遞歸獎勵建模可以被看作是獎勵建模代替監督學習或模仿學習的迭代放大的實例。
隨着k的增加，用戶在整個評估過程中所占的工作量越來越小，越來越依賴於其他智能體的幫助。從本質上說，用戶的反饋變得越來越重要。我們可以想象用戶的貢獻是在一個越來越高的抽象級別上，或者是在一個越來越粗的粒度上。因此，一旦用戶確信自動化系統能夠勝任這些任務，即一旦用戶信任這些系統，那么用戶就可以留下越來越多“需要填寫”的細節給自動化系統。
用戶應該如何分解任務評估？它們需要為前一個智能體分配更簡單的評估輔助任務，並將結果合並到一個聚合評估中。這種分解需要詳盡：如果我們忽略了評估任務結果的一個方面，那么新的智能體A_k可能會以任意(即不理想的)方向對其進行優化。這是我們希望通過遞歸獎勵建模解決的另一個問題：我們可以讓智能體A_2提出一個任務評估的分解，並讓另一個智能體A_1對其進行評論，暗示分解忽略的方面。或者，也可以基於下游的實際結果進行分解建議的反饋。
一個重要的開放問題是，錯誤是否會累積：更狹隘的智能體A_(k-1)的錯誤是否會在智能體A_k訓練時導致更大的錯誤？或者，我們是否可以將訓練過程設置為可自我糾正的，從而抑制較小的錯誤(例如，使用智能體集合、訓練智能體來積極尋找和抵消這些錯誤，等等)? 如果誤差累積是有界的，並且獎勵模型可以產生對齊的智能體，那么使用遞歸獎勵建模訓練的智能體的層次結構可以被認為是對齊的，類似於通過歸納證明自然數命題。

復雜性理論的類比。在獎勵建模設置中，智能體提出由用戶評估的行為。這在概念上類似於求解存在量化的一階邏輯公式，如∃x.φ(x)。智能體提出一個行為x，用戶評估該行為的質量。為了簡化這個類比，讓我們假設用戶的評估是二進制的，這樣述語φ就可以捕捉到它。
通過遞歸獎勵建模，我們可以解決類似於涉及交替量詞的更復雜的一階邏輯公式的任務。例如，∃x∀y.φ(x,y)對應於遞歸的下一個階段：智能體A_2提出了一個行為x，智能體A_1響應了一個輔助行為y。然后用戶評估遵循x的輔助y (訓練智能體A_1)和在輔助y下的輸出x (訓練智能體A_2)。在遞歸深度k增加時，我們就可以針對包含k個交替量詞的問題。
當使用多項式有界量詞和一個可以在多項式時間內計算的公式φ時，獎勵建模類似於解決NP完全問題：非確定性執行器(類似於智能體)提出了一個解決方案，該解決方案可以在確定的多項式時間內(由用戶)評估其正確性
例如, 在一個給定的圖中發現一個環,每一個頂點恰好訪問一次(哈密頓環問題)是NP完全的：它可以用指數時間與已知的算法在最壞情況下找到一個環,但鑒於環可以快速驗證,每個頂點只訪問了一次。
這種對復雜性理論的類比最早由Irving等人提出，它提供了兩個重要的見解：
人們普遍認為復雜性類別P和NP是不相等的，這支持假設2：對於許多相關問題，評估比生成解決方案更容易。
基本上，數學家們關心的每一個形式命題都可以寫成一個具有有限數量的交替量詞的一階邏輯命題。這表明遞歸獎勵建模可以覆蓋非常一般的任務空間。

4 挑戰
獎勵建模的成功與否在很大程度上取決於獎勵模型的質量。如果獎勵模型只捕獲目標的大部分方面，而不是全部，這可能導致智能體找到不理想的退化解決方案。換句話說，智能體的行為以一種潛在的非常脆弱的方式依賴於獎勵模型。
將獎勵建模擴展到更困難和更復雜的任務也會帶來許多其他挑戰：是否負擔得起學習正確的獎勵函數所需的反饋量？我們能否學習一個對狀態分布變化具有魯棒性的獎勵函數？我們能否防止智能體在獎勵模型中發現漏洞？我們如何在不可接受的結果發生之前預防它們？即使獎勵模型是正確的，我們如何訓練智能體穩健地產生由獎勵模型激勵的行為？
這些挑戰中的每一個都有可能阻止我們擴展獎勵建模。在本節的其余部分中，我們將更詳細地討論這些挑戰。我們並不認為這一挑戰清單是詳盡的，但希望它包括最重要的挑戰。第5節討論了緩解這些挑戰的具體方法；有關概述，請參見圖3。我們提出的研究方向的目標是調查這些方法，以了解它們是否以及如何克服這些挑戰。

圖3:擴展獎勵建模時的挑戰以及我們討論的解決這些挑戰的方法。最右邊的列列出了每種方法要解決的挑戰。

4.1 反饋量
在來自正確分布的無限數據的限制下，我們可以使用足夠的模型容量學習正確的獎勵函數(在極端情況下使用查找表)。然而，一個關鍵的問題是，在現實預算下，我們生成或標注的數據量是否能夠使獎勵模型獲得足夠的精度。歸根結底，這是一個在狀態分布上的泛化效果如何的問題：我們的模型泛化得越好，我們就能從現有的數據中擠出越多的東西。
很有可能，如果需要學習和我們想教的用戶意圖（心理、合作、公平、自我模型等）高度相關的高級概念，那么智能體對齊問題對已經在足夠廣泛的現實任務上很高效的智能體來說實際上是更容易的。如果這是真的，那么和與這些概念相關的對齊獎勵函數交流的工作量可能比從頭開始學習要小得多。
另一方面，不具有人類歸納偏差的智能體可能會以令人驚訝或不理想的方式解決任務，這一點從反例(Szegedy et al., 2013)可以看到。這意味着對齊一個智能體可能需要的不僅僅是大量的標記數據；我們可能還需要為我們的模型提供正確的歸納偏差。

4.2 反饋分布
機器學習模型通常只能對和訓練時來自相同分布的輸入提供有意義的預測。然而，我們希望獎勵模型在策略外，對智能體從未訪問過的狀態也是准確的。所以(1)鼓勵智能體探索它沒有訪問過的正價值軌跡，(2)阻止智能體探索不希望看到的負價值軌跡，是至關重要的
這個問題被稱為分布移位或數據集移位。這種分布轉移問題同樣適用於智能體的策略模型；觀察分布的變化可能使策略輸出無效。然而，對於獎勵模型，這個問題更為重要，在某些情況下，如果獎勵模型仍然完好，那么策略可以通過微調恢復。
目前還不清楚這個問題的原則性解決方案是什么。在沒有這種解決方案的情況下，我們可以依靠分布外檢測來服從人類期望，或者將訓練分布擴大到包括所有相關情況。

4.3 獎勵黑客
.獎勵黑客是指在確定獎勵的過程中，利用漏洞使智能體獲得比預期更多獎勵的一種效應。這個問題很難解決，因為這些漏洞必須從像AlphaGo的第37步棋等理想的創造性解決方案中加以界定。
非預期漏洞的來源是獎勵博弈，其中智能體利用了獎勵函數中的一些錯誤規范，以及獎勵篡改，其中智能體干擾了計算獎勵的過程。

獎勵博弈。當獎勵函數錯誤地給一些不希望的行為提供了高獎勵時，獎勵博弈的機會就會出現；具體示例見圖4。獎勵博弈的一個潛在來源是獎勵模型對對抗性輸入的脆弱性。如果環境足夠復雜，智能體可能會去想如何專門設計這些對抗擾動輸入，從而欺騙獎勵模型，使其提供高於用戶預期的獎勵。不像大多數產生對抗性例子的工作，智能體不能夠自由地合成任何可能的輸入到獎勵模型中，但是會在其環境中找到一種方法實現對抗性觀察序列。
獎勵博弈問題原則上可以通過改進獎勵模型來解決。這是否意味着獎勵博弈問題也可以在實踐中被克服可以說是最大的開放問題之一，也可能是獎勵建模最大的弱點。然而，文獻中也有一些例子表明獎勵博弈在實踐中是可以避免的。對一個學習到的獎勵函數進行強化學習在gridworlds，Atari游戲和連續電機控制任務中都已經成功。

圖4:Atari游戲獎勵模型的一個例子。從最好的種子開始的完全訓練的獎勵模型被凍結，並用於從頭開始訓練一個新的智能體。圖中顯示了訓練過程中根據雅達利獎勵(黑色)的平均真實集收益和根據凍結獎勵模型(綠色)的平均集收益。隨着時間的推移，智能體學會利用獎勵模型：感知的性能(根據獎勵模型)增加，而實際的性能(根據游戲分數)直線下降。

獎勵篡改。獎勵篡改問題可以按照干預了獎勵過程的哪一部分來分類。智能體可能會干擾的獎勵過程的關鍵組成部分包括對獎勵模型的反饋，獎勵模型用來確定獎勵的觀測，實現獎勵模型的代碼，以及持有獎勵信號的機器寄存器。
例如，《超級馬里奧世界》允許智能體從游戲內部執行任意代碼，理論上允許智能體直接為自己編寫更高的分數。現有的諸如此類篡改的例子有些是人為設計的，這在實踐中可能是問題，也可能不是問題，取決於我們如何仔細地遵循良好的軟件設計原則(例如，避免緩沖區溢出)。
與上面討論的獎勵博弈不同，獎勵篡改會繞過或改變獎勵模型。這可能需要一組不同的解決方案；與其提高獎勵模型的准確性，還不如加強獎勵模型軟硬件的完整性，並對其進行反饋訓練。

4.4 不可接受的結果
目前，大多數關於深度強化學習的研究都是在不存在不可接受結果的模擬環境中進行的；在最壞的情況下，模擬程序可以終止並從初始狀態重新啟動。然而，當在任何現實世界的任務中訓練一個強化學習智能體時，會有許多結果代價過於昂貴，智能體需要完全避免它們。例如，有些郵件是私人助理永遠不應該寫的；物理機器人采取破壞自身硬件或傷害附近人類的行動；烹飪機器人可能會使用有毒原料；等等。
避免不可接受的結果有兩個困難方面。首先，對於復雜的任務，環境中總是有未知的部分，智能體需要安全地探索它們。解決的關鍵在於，智能體需要在不訪問不安全狀態的情況下了解它們。其次，智能體需要對可能導致其無意中產生不可接受結果的擾動做出強有力的反應，例如分布變化和對抗輸入。

4.5 獎勵-結果差距
獎勵-結果差距表現為獎勵模型與從智能體的策略中通過完全反強化學習恢復的獎勵函數(智能體似乎在優化的獎勵函數)之間的差異。即使我們給智能體提供了一個正確對齊的獎勵函數，得到的行為仍然可能是不對齊的，因為智能體可能無法收斂到最優策略：即使是可證明的貝葉斯最優智能體也可能因為缺乏探索而無法收斂到最優策略。
造成獎勵-結果差距的原因有很多：獎勵可能太過稀疏，形狀不佳，或者數量級錯誤；由於超參數設置不當，訓練可能會過早停止；智能體可能在學習過程中探索不足或產生非預期行為；智能體可能會面臨各種穩健性問題，如外部引起的狀態空間分布變化或面臨對抗輸入。根據獎勵-結果差距的性質，獎勵模型可能需要根據智能體的具體缺點(例如，遠離不安全狀態)進行調整，而不是僅僅捕捉人類的意圖。

5 方法
本節將討論一些方法，它們都有助於緩解第4節中討論的問題。這些方法應該被認為是探索的方向；還需要更多的研究來確定它們是否有效。

5.1 在線反饋
初步實驗表明，當獎勵模型沒有在線訓練，即與智能體並行時，會出現失敗的模型。在這些情況下，智能體會學習利用凍結的獎勵模型。由於沒有額外的用戶反饋，智能體發現的獎勵模型中的漏洞是無法修正的。
如果我們在線向智能體提供獎勵反饋，我們就會在用戶反饋和智能體行為之間形成一個更緊密的反饋循環。這使得獎勵模型能夠適應智能體正在訪問的狀態分布，從而減輕了一些分布轉移問題。此外，通過在線反饋，用戶可以發現試圖破解獎勵模型的行為，並據此進行糾正。理想情況下，我們希望智能體分擔一些責任，以確定何時需要反饋，例如根據不確定性估計(第5.9節)，因為如果不這樣做，及時提供相關反饋的成本可能會相當高。

5.2 策略外反饋
當用智能體行為的反饋來訓練智能體時，這個反饋僅僅是基於已經發生的結果有反應的。為了防止不可接受的結果和獎勵黑客行為，我們需要能夠在某些結果發生之前就告知它們是不可取的。這就要求獎勵模型在策略外，即在智能體從未訪問過的狀態上是准確的。如果將策略外反饋與基於模型的RL(第5.6節)結合使用，智能體就可以成功地避免從未發生過的不安全行為。
用戶可以主動提供策略外反饋，以預測潛在的陷阱。通過使用環境的生成模型來創建反事實事件的假設場景，可以獲得策略外反饋。然而，由於會產生分布轉移，智能體從未訪問過的狀態的生成建模可能非常困難；由此產生的視頻可能會遺漏一些重要的細節，或者讓人完全無法理解。因此，在抽象層面上提供策略外反饋可能更可行，例如使用自然語言。這類似於人類通過講故事和想象來了解不好的結果。

5.3 利用現有數據
大量人工制作的視頻數據和散文已經唾手可得。這些數據中的大多數目前沒有高質量的文本注釋，因此不能直接用作獎勵標簽。然而，它包含了很多關於人類意圖的有用信息。至少有兩種方法可以利用現有的數據：使用無監督學習(如無監督的預訓練或第三人稱模仿學習)或手動注釋。

5.4 層次反饋
支持分層RL的相同論點也鼓勵對獎勵模型進行分層分解。這將允許用戶提供低級和高級的反饋。分層RL和分層獎勵模型結合起來應該很自然：如果智能體和獎勵模型之間的時間層次對齊，那么在層次結構的每個層次上，獎勵模型可以訓練智能體的相應層次。這可能有助於繞過一些非常困難的長期信用分配問題。
例如，回想一下3.2節中的幻想小說作者任務。低級反饋包括拼寫、流暢性和語言語調，而高級反饋可以針對段落級別無法提供的情節和角色發展。

5.5自然語言
由於我們希望智能體能夠在相同的環境中追求並實現各種各樣的目標，並且能夠以一種人類自然的方式來指定這些目標，因此我們可以根據自然語言指令對獎勵函數進行建模。這些自然語言指令可以看作是人類可讀的任務標簽。此外，它們提供了一個單獨的特權通道，與通過觀測通道接收的任何指令相比，該通道應該更容易保護，也更不易被欺騙。
除了提供任務標簽之外，我們還可以使自然語言成為智能體的體系結構和訓練過程中更重要的一部分。這有許多優點。
自然語言是人類反饋的一種自然形式。如果我們能學會將自然語言的表達轉化為訓練獎勵模型所依據的數據集所需的嚴格格式，這將使用戶能夠更有效地提供反饋。
如果使用語言來表示潛在空間，並且可能以一種人類更可預測的方式進行泛化，那么自然語言就有可能實現更好的泛化。這也可能有助於減輕獎勵模型的分布問題(第4.2節)：如果訓練分布在自然語言段落的空間中相當密集，那么可能會使分布外的輸入非常少。
自然語言可能會帶來更好的可解釋性。特別是對於抽象的高級概念，自然語言可能比可視化的可解釋技術更適合。然而，默認情況下，獎勵模型的表示形式可能與簡短的自然語言表達式不完全一致，可能需要針對這個目標進行專門的訓練(不產生合理化)。

5.6 基於模型的RL
基於模型的RL智能體會學習環境的顯式模型，這種模型可以使用規划算法，如蒙特卡洛樹搜索。如果我們正在訓練一個基於模型的智能體，那么獎勵模型可以作為規划搜索過程的一部分。這允許智能體使用策略外獎勵評估，評估它從未實際采取的行動，前提是獎勵模型是策略外准確的 (5.2節)。這有許多優點：
智能體可以通過在規划過程中發現不可接受的結果來避免它們(4.4節)。
智能體的模型可以用於從用戶那里征求尚未發生的結果的反饋。
智能體可以更快地適應獎勵模型中的變化，因為它可以在不與環境交互的情況下使用模型將這些變化備份到價值評估。
基於模型的方法可以通過在規划期間使用當前的獎勵模型評估未來的結果，從而有原則地解決獎勵篡改問題(4.3節)。以這種方式規划的智能體不會有改變其獎勵函數的動機；也不能操縱持有獎勵信號的寄存器。

5.7 邊界約束
除了學習獎勵函數，我們還可以學習低級或高級行為的邊界約束，以防止不可接受的結果。阻止行為比用大量的負面獎勵來削弱它們更有效，因為負面獎勵可以在以后用更大的獎勵來補償(比如在獎勵黑客的情況下)。這個問題可能會被智能體的世界模型中的錯誤放大。
這里描述的用於訓練獎勵模型的相同技術應該應用於訓練評估邊界約束並阻止低級行為的模型或在策略更新期間強制約束的模型。這種技術的主要缺點是它給人類增加了額外的負擔，因為他們必須了解哪些行為會導致不可接受的結果。根據域的不同，這可能需要人獲得其他智能體輔助。因此可以轉為使用遞歸獎勵建模對這些智能體進行訓練(第3.2節)。

5.8 對抗訓練
為了緩解人工對抗性輸入對神經網絡的影響，迄今為止經驗上最有效的策略是對抗性訓練：針對對抗性擾動輸入顯式地訓練模型。
然而，如何從一般意義上嚴格定義對抗性擾動還不清楚。為了涵蓋更一般的情況，我們可以訓練智能體去明確地發現獎勵模型中的弱點和獎勵黑客攻擊的機會，以及導致不可接受的結果的最小擾動。這與紅色團隊類似，目標是發現對手可能使用的攻擊策略(例如安全漏洞)。
用戶可以查看發現的失敗案例，並將其添加到反饋數據集中。這可能意味着更高的數據需求；因此，即使對抗性訓練解決了這個問題，它也可能使數據需求超出可承受范圍。

5.9不確定性估計
獎勵模型的另一個理想特征是對其輸出不確定性的適當表達。改進不確定性估計帶來兩個好處:
在訓練過程中，它可以使用主動學習，來幫助自動化收集關於信息性最大狀態的反饋的過程。
當不確定性很大時，例如對於不像訓練分布的輸入，智能體可以服從於人或退回到規避風險的決策。
最近的一些研究開發了神經網絡的可縮放近似貝葉斯方法。到目前為止，模型集成提供了一個非常強大的基線。貝葉斯方法從關於哪些參數是正確的“認知”不確定性中，解決了不可約的不確定性，它隨着數據量的增加而降低；這種區別有助於主動學習。
其他工作致力於校准神經網絡的預測，使他們的主觀不確定性對應於他們的經驗錯誤頻率。雖然貝葉斯方法有助於校准，但在深度神經網絡的實踐中還不夠好。經過良好校准的模型可以進行風險規避決策，但是可靠地處理分布外狀態需要更高質量的不確定性估計，這是目前深度學習技術所不能提供的。

5.10 歸納偏差
最后，獎勵模型的一個關鍵方面是獎勵模型的歸納偏差。由於我們無法對獎勵模型和智能體在所有可能結果上進行訓練，我們需要對給定的數據進行適當的歸納。深度學習的成功歸因於歸納偏差，如分布式表征和復合性，這可能也是擊敗“維度詛咒”的必要條件。進一步的歸納偏差對於解決許多任務是必要的；例如卷積神經網絡由於空間不變性，在計算機視覺應用中大大優於多層感知器。
解決獎勵模型可能需要非標准的歸納偏差；例如，現代深度網絡通常使用分段線性激活函數，其線性泛化遠離訓練數據，這意味着對於極端的輸入，估計的獎勵會趨於正無窮大或負無窮大。深層模型的歸納偏差受體系結構、激活函數和訓練過程的影響。越來越多的工作以深入模型中的系統泛化為目標。例如，模塊化、遞歸、潛在空間中的圖結構或自然語言、可微分外部記憶或用於執行任意算術運算的神經單元。

6 建立信任
假設我們的研究方向是成功的，並且我們知道如何訓練智能體按照用戶意圖行事。我們如何才能確信我們正在訓練的智能體確實是充分對齊的呢？換句話說，我們如何能夠確信我們已經克服了第4節的挑戰，並且智能體的行為充分地捕獲了人類的意圖？這需要額外的技術，使我們能夠獲得我們正在訓練的智能體的信任。
一個宏偉的目標是使安全證書的生產成為可能，這些產品可以作為證據說服第三方信任我們的系統。這些安全證書可以用來證明負責的技術開發、化解競爭以及證明遵守法規。安全證書的形式可以是第三方持有的秘密測試組的分數、可解釋屬性的證據，或針對某些已建立規范的可機器檢查的正確性形式證明，等等。下面將討論在我們的模型中構建信任的一些通用方法。

圖5：9款Atari游戲中學習獎勵函數的對齊：散點圖顯示了從用戶偏好中學習到的獎勵(y軸)與實際Atari1000步獎勵(x軸)平均值之間的相關性。對於完全對齊的獎勵函數，所有的點都在一條直線上。在這些實驗中，獎勵模型在一些游戲中表現良好，如《梁騎士》、《英雄》和《Q*bert》，而在《Private Eye》、《Breakout》和《Mondezuma’s Revenge》中則表現不佳。

設計選擇。將學習目標從學習行為中分離出來可以讓我們對最終的行為獲得更高的信任，因為我們可以將對獎勵模型的信任從對策略的信任中分離出來。例如，我們可以通過評估用戶的反饋來衡量獎勵函數與任務目標的對齊程度(見圖5)。如果我們理解和信任了獎勵模型，我們就能知道智能體正試圖實現什么。如果假設2是真的，那么獎勵模型應該比策略更容易解釋和調試。
另一個可以增加系統信任的設計選擇是將策略分為兩部分：計划生成器和計划執行器。計划生成器生成當前行動過程的可讀計划。這個計划可以是非常高級的，如商業計划或研究計划，也可以是相當低級的，如烹飪食譜。然后，用戶可以選擇性地審查和簽署該計划。然后計划執行器獲取計划並實現它。
在訓練設置、模型體系結構、損失函數等方面，清晰、易於理解的設計選擇可以導致更可預測的行為，從而增加我們對最終系統的總體信任(而不是訓練一大堆端到端的參數)。特別是如果我們設法正式指定某些安全屬性，我們可以讓它們成為我們智能體設計的一個明確部分。

測試。在機器學習中，對單獨的外置測試集進行評估已經是一種常見的實踐。對於監督學習，訓練模型的性能是通過從相同的數據分布中抽取的外置測試集的經驗風險來評估的。這種做法可以很容易地應用於獎勵模型和策略，例如在一組專門設計的模擬環境中，甚至在攻擊者明確試圖在智能體中造成不當行為的對抗情況下。

可解釋性。可解釋性被定義為向人類解釋或以可理解的方式表達的能力。目前廣泛使用的深度神經網絡大多是黑盒，理解其內部功能被認為是非常困難的。然而，最近的進展使我們有理由樂觀地認為，我們將能夠使這些黑盒變得越來越透明。這包括利用t-SNE圖可視化智能體潛在狀態空間的初步工作；檢查智能體決策時的目標；評估模型對高層人類概念的存在/強度的敏感性；在循環中優化模型，使其更易於被人類解釋；在同樣由人類完成的任務中，將神經激活翻譯成自然語言；結合不同的交互可視化技術，這里僅舉幾個例子。

正則驗證。神經網絡模型檢驗的最新進展為訓練模型的正則驗證打開了大門。驗證模型的尺寸已經超過MNIST-size，超過100萬個參數，這表明驗證實際大小的RL模型可能很快就能實現。如果可以擴大形式驗證的規模，我們可以嘗試驗證策略的屬性和遵從高級規范獎勵函數，包括關斷、副作用和3.1節中提到的規范問題。如果第1節中的假設1是真的，那么這個規范不需要手工編寫，而是可以由一個單獨的學習模型提供。然而，在這種情況下，形式正確性證明只有在學習到的規范准確時才有用。
為了使驗證任務更容易，我們的模型可以被訓練得更容易驗證。然而，這也會導致利用學習到的規范中的漏洞的退化解決方案。這類似於獎勵黑客的問題(4.3節)，它訓練一個策略來優化一個凍結的獎勵模型(圖4)。繞過這個問題就可以使用相同的技術成功針對獎勵黑客，例如使用用戶反饋在線學習規范(5.1節)。

理論保證。最后，更有野心的是理論基礎良好的可伸縮學習算法的開發，這些算法具有概率近似正確或樣本復雜性保證、容量聲明、校准良好的不確定性估計等特點。不幸的是，目前流行的深度神經網絡架構和訓練技術嚴重缺乏這樣的保證。

7 智能體對齊的替代方案
本文提出的研究方向並不是解決智能體對齊問題的唯一可能途徑。雖然我們認為它是目前最有前途的探索之一，但不能保證成功。幸運的是，對於智能體對齊還有許多其他有前途的方向。它們可以並行地進行，甚至相互結合。本節提供概述並解釋我們的方法如何與它們相關。我們的清單並不詳盡；未來可能會提出更多的方向。

7.1 模仿學習
訓練對齊智能體的一種策略可以是模仿人類行為。一個充分模仿人類對齊行為的智能體也應該是對齊的。以下說明適用:
數據量。雖然反饋通常可以由非專家提供，但用於人類模仿的數據必須由該任務的專家提供。這可能是更昂貴的數據，而且我們不清楚是否需要更多或更少的數據來進行獎勵建模。
認知模仿。有可能許多人類需要認知的任務依賴於非常高級的直覺、規划，而其他認知過程很少在人類行為中得到反映。例如，通過與在不同領域遇到的不同問題進行類比，可以獲得解決問題的關鍵洞察力。單從人類行為的數據來看，這可能很難復制和預測。
泛化。為了發揮作用，我們用模仿學習訓練的智能體需要持續展示高質量的行為，即使是面對新的情況。類似於假設2，對學習到的獎勵函數進行泛化可能比泛化行為更容易。
性能。單獨使用模仿學習通常很難超越人類：即使是一個完美的模仿者也只能表現得和它所模仿的源一樣好；超人的性能通常來自於通過消除人類行為中的不一致性，從而更快更可靠地執行人類行為序列。
因此，模仿學習不太可能與其他長期訓練智能體的策略相競爭。然而，它可能足以充當“墊腳石”：受過模仿學習訓練的智能體可能充當“研究助理”，並幫助擴大其他對齊努力。因此，它應該被認為是我們研究策略的一個強有力的替代策略。

7.2 反向強化學習
我們可以把強化學習算法看作是從獎勵函數到行為的映射。該映射的逆函數以智能體的行為作為輸入，並產生一個獎勵函數；這就是所謂的反向強化學習。從這個意義上說，反向強化學習可以被看作是一種以行為軌跡作為反饋形式的獎勵建模方法。然而，照目前的情況看，它有兩個缺點:
IRL是一個約束不足的問題，因為僅從行為出發，獎勵函數不是唯一可識別的(甚至不能達到仿射線性變換)；例如，R=0總是一個解。如果我們假設人是完全理性的，智能體可以為人設計一系列的任務，那么就可以識別出獎勵函數。甚至關於人的理性的一些假設也可以放寬，但總的來說，反向強化學習問題變得無法解決。
它假設人類是在直接優化他們的獎勵，即使這是一種傳達他們偏好的低效方式。例如，對於一個人來說，說“我想讓你每天早上8點為我煮咖啡”比連續幾天在8點為自己煮咖啡要容易得多。

7.3 合作反向強化學習
基於IRL的第二個缺點，Hadfield-Menell et al.(2016)提出了合作逆強化學習(CIRL)。CIRL是一個正式的獎勵建模模型，它是一個用戶和一個智能體之間的兩個人的游戲，照下述方式進行。
用戶和智能體從用戶獎勵函數的共享先驗開始，
然后用戶觀測他們的獎勵函數，最后
用戶和智能體都執行策略來優化用戶的獎勵函數。
CIRL游戲的最優解決方案是使用用戶和智能體的共同知識來計算智能體的策略(在步驟3中執行)，以及從獎勵函數到用戶策略的映射。然后根據在步驟2中觀測到的它們的獎勵函數，用戶應該選擇相應的策略在步驟3中執行。用戶和智能體都必須選擇動作來權衡(1)與智能體傳達用戶的獎勵函數和(2)直接最大化用戶期望獎勵。
我們對作為智能體對齊方法的CIRL做了兩個觀察，突出顯示了從一些重要的細節中抽象出來的CIRL。首先，CIRL算法的性能取決於獎勵函數先驗的質量。本質上，CIRL將指定獎勵函數的問題替換為指定獎勵函數先驗的問題。其次，計算CIRL問題的最優解是不現實的，因為我們不能准確地規定用戶應該如何與智能體交互。換句話說，CIRL游戲的有效解決方案可能采用一種策略，即先將參數從用戶傳輸到智能體，然后由用戶和智能體執行一個普通的RL算法(因為獎勵現在對兩者都是完全可見的)。但是如果用戶能夠觀察到他們的獎勵函數，他們可以直接將其指定給RL智能體。換句話說,智能體對齊的困難之一是獎勵函數不直接提供給用戶在第一時間：用戶通常不知道他們所有的偏好,而它可能更容易通過揭示偏好進行交流。
然而，CIRL對對齊問題有兩個重要的見解，這也激勵了我們的研究方向:
通過構造智能體來優化潛在的獎勵函數，可以幫助它們對齊任務。在這些任務中，當智能體訪問所有狀態-動作對時，我們無法一致地提供的獎勵反饋。
智能體對齊問題的一個關鍵挑戰是找到有效的方法來將用戶的意圖傳達給學習智能體。

7.4 短視強化學習
短視的RL智能體只會最大化當前時間步獎勵，而非未來獎勵的(折算)總和。這意味着它們更目光短淺，因此沒有動機去執行長期規划或采取短期內不好的行動來獲得長期利益。特別是，短視的RL智能體可能不太容易出現3.1節中提到的一些設計規范問題，因為引起這些問題可能需要好幾個時間步來補償智能體。
有兩種主要的短視RL算法。TAMER是從人類價值反饋中學習策略的算法集合，即在下一步中采取最大化期望反饋的行動(可能使用短時間平滑)。COACH是以優勢函數的反饋形式訓練策略的算法。
與模仿學習不同的是，用戶不要求能夠產生理想行為，只需要獎勵能帶來理想行為的獨立行為即可。例如，使用TAMER或COACH，用戶可以教會智能體執行后空翻，而自己卻不用會。然而，雖然短視的RL可能會增加對齊，但也會帶來性能上的缺陷。訓練短視的RL智能體將解決信用分配問題的重擔推給了用戶，限制了智能體潛在的獨創性和性能，也使得用戶需要負責避免長期的負面后果。
盡管有這些限制，對於一些信用分配對人類來說相當容易的任務，短視的RL智能體可能已經足夠了。它們也可以作為更強大的訓練機制的構建塊，例如迭代放大。

7.5 模仿專家推理
另一種選擇是訓練一個模型來模仿專家的推理。模仿可以在專家決定的粒度級別上發生，並且可以包括專家通常不會顯式執行的“內部”推理步驟。這種專家推理可以得到改進和加速。
最能說明基本思想的是問答系統。系統的輸入是一個問題Q，它的輸出是一個答案A。為了簡單起見，我們可以將Q和A都視為自然語言字符串。系統可以遞歸調用自身，詢問子問題Q_1,…, Q_k，收到它們的答案A_1,…, A_k，然后把它們組合成答案A。
例如，考慮這樣一個問題Q“在丹麥有多少個菠蘿?”為了給出一個大概的答案，我們構造一個費米估計，通過問“丹麥的人口是多少？”，“丹麥人平均每年吃多少個菠蘿？”，“菠蘿能儲存多長時間？”。然后，這些子問題被遞歸地回答，它們的答案可以組合成原問題Q的答案。
我們可以使用與專家推理過程相同的模仿學習(7.1節)來訓練一個模型遞歸地回答問題Q。然后可以使用多種方法對該模型進行改進：
並行和/或以更快的速度運行此模型的多個副本。
不擴展子問題的前提下，訓練一個新的模型來預測問題的答案，類似於使用一個值網絡來估計樹搜索的結果
讓專家的推理在反思下更加一致。例如，在專家的推理中尋找不一致之處並加以解決。
如果我們相信專家推理與用戶是對齊的，那么我們可以希望得到的改進模型也是對齊的。與遞歸獎勵建模相比，此訓練過程旨在實現對最終智能體更好的可解釋性和更大信任(第3.2節)。然而，學習專家推理對於遞歸獎勵建模在經濟上可能沒有競爭力，這取決於專家的推理有多好，以及假設2是否適用於手頭的任務。
盡管兩者都是更一般的迭代放大框架的實例，3.2節中描述的遞歸獎勵建模並沒有嘗試顯式地對專家推理建模。相反，遞歸獎勵建模只要求用戶評估結果。然而，它依賴於評估任務的分解，這與此處描述的分解推理有相似之處。在使用遞歸獎勵建模時，用戶可以選擇對產生結果的認知過程提供反饋，但他們不需要這樣做。此外，如果策略模型不是很容易解釋，那么在實踐中可能很難提供這種反饋。

7.6 辯論
Irving et al.(2018)描述了一種智能體對齊的思想，這種思想涉及一種兩個人的零和游戲，兩個人都在為用戶辯論一個問題。兩個玩家輪流輸出一個簡短的語句，直到回合限制。在游戲結束時，用戶閱讀對話記錄，並宣布提供最真實和最有用的陳述的玩家為獲勝者。
辯論方案涉及在這個辯論賽中訓練一個具有自我游戲能力的智能體。為了保持對齊，這個智能體需要以一種收斂於納什均衡的方式進行訓練，在納什均衡中，智能體的兩個實例都試圖幫助用戶。辯論的中心假設是，智能體說真話比說謊更容易。如果這個假設成立，那么游戲的動態應該激勵智能體提供真實和有用的陳述。
作者在MNIST數據集上提供了初始實驗，其中辯論智能體設法提高稀疏分類器的准確性，該分類器只能訪問圖像的幾個像素。雖然這些初步實驗很有希望，但還需要進行更多的研究，以確定辯論是否是一種可伸縮的對齊方法。我們需要更多的經驗證據來澄清以下兩個問題。
辯論的中心假設是否存在於容易驗證事實的陳述之外？
即使辯論者具有較強的說服和欺騙能力，人們是否能夠准確判斷辯論？

7.7 其他相關工作
Amodei等人(2016)已經討論了我們在這里提出的獎勵建模的許多實際挑戰：安全探索、分布轉移、副作用和獎勵黑客攻擊。特別是，作者強調了他們所謂的可伸縮的監督問題，即如何訓練具有稀疏人工反饋的RL智能體。這可以理解為我們這里要解決的對齊問題的一個更窄的版本。本着類似的精神，Taylor et al.(2016)調查了一些關於智能體對齊的高級開放研究問題。與我們的方法最密切相關的是作者所稱的知情監督(構建有助於解釋結果的系統)、可泛化的環境目標(根據環境狀態定義目標函數)和避免工具激勵(防止系統對某些不良的子目標進行優化)。
Soares & Fallenstein(2017)提出了一個截然不同的研究議程。他們的研究問題與范式無關，而是關注數學智能體模型的理論基礎。特別是，他們的許多問題旨在解決將當前的最優行為概念應用於其環境的一部分的智能體時所遇到的感知困難，由此並未清晰描述它。作者尋求正式的工具來提出關於或與理論對齊相關的問題，例如提供一個停止的oracle。這些正式的工具對於設計自身升級版本的智能體的正規驗證是必要的。然而，盡管在這一研究議程上取得了一些進展，一些問題被證明是相當困難的。但是，即使我們對Soares & Fallenstein提出的問題有了正式的解決方案，將這些解決方案轉移到實際的對齊智能體上仍然存在差距。就目前而言，這些研究問題的答案應該更多地被理解為實際對齊問題的直覺，而不是直接的解決方案本身。

8 討論
總結。我們致力於解決的智能體對齊問題的版本,涉及將一個智能體對齊到一個用戶(第2節),而不是試圖學習整個偏好負載,我們概述一個方法讓用戶將自己對手頭的任務的意圖傳達給智能體,以至於讓他們相信訓練的智能體。
我們的智能體對齊研究方向是基於可伸縮獎勵建模的(第3節)，這個方向非常適合機器學習的現有工作，因為它可以受益於監督學習(對於獎勵模型)和強化學習(對於策略)的先進技術。基於以前的工作(第7節),我們提供更多細節,包括的主要挑戰(4節)和具體的方法來減輕這些挑戰(第五節)和對我們訓練的智能體建立信任(第6節)。從本質上說,本文結合了在人工智能安全問題上的現有措施，提供了圍繞如何解決這些問題可以使我們訓練對齊智能體超出人類級別表現的一個連貫的敘事。

具體的研究項目。我們的研究方向是為今天的實證研究做好准備的。我們可以用深度強化學習智能體進行實驗：從第4節中獲得關於挑戰嚴重程度的經驗數據；來自第5節的原型解決方案思想；將獎勵建模擴展到更困難的任務；推進(對抗性)測試、可解釋性、正規驗證和深度RL理論的前沿。此外,我們可以很容易地使用任何現有的RL基准,比如有預定程序的獎勵函數的游戲或模擬環境：通過隱藏這個獎勵函數的算法我們可以假裝它不可用,但仍用它來綜合生成的用戶反饋以及學到的獎勵模型的評估。

前景。ML有巨大的潛力對現實世界和人類生活產生積極影響。由於大多數實際問題都可以在RL框架中進行轉換，因此深度RL是解決實際問題的一種非常有前途的技術。然而，為了挖掘其潛力，我們需要在沒有明確獎勵函數的情況下對智能體進行訓練。正如對計算機視覺系統的魯棒性的前瞻性研究對於解決對抗性輸入的漏洞至關重要一樣，對齊研究對於在復雜的現實領域中突破ML系統部署的未來瓶頸也至關重要。目前，對齊智能體的研究還處於早期階段，但我們相信有充分的理由保持樂觀。當我們期望在擴展獎勵模型面臨挑戰時，這些挑戰是具體的技術問題，我們可以通過有針對性的研究來取得進展。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 深度強化學習中稀疏獎勵問題Sparse Reward 深度強化學習方向論文整理 [強化學習論文筆記(3)]:DRQN [強化學習論文筆記(2)]:DoubleDQN [強化學習論文筆記(7)]:DPG 【基於模型的強化學習】論文閱讀 [強化學習論文筆記(4)]:DuelingDQN 讀強化學習論文之MADDPG [強化學習論文筆記(1)]:DQN [強化學習論文閱讀(9)]:soft Q-learning