출처: https://medium.com/@deepmindsafetyresearch/scalable-agent-alignment-via-reward-modeling-bf4ab06dfd84



We need a good way to provide feedback and enable artificial agents to reliably understand what we want, in order to help us achieve it. In other words, we want to train AI systems with human feedback in such a way that the system’s behavior aligns with our intentions.


인공지능이 인간의 명령을 제대로 수행하기 위해서는 일단 인공지능이 인간이 하는 명령을 제대로 알아듣도록 피드백을 제공해야 합니다.
다르게 말하자면 인공지능을 훈련시키는 과정에서 인간 사용자가 피드백을 제공하여 인공지능이 인간 사용자의 의도에 부합하게 행동하도록 만들어야 한다는 것이죠.


The main thrust of our research direction is based on reward modeling: we train a reward model with feedback from the user to capture their intentions. At the same time, we train a policy with reinforcement learning to maximize the reward from the reward model. In other words, we separate learning what to do (the reward model) from learning how to do it (the policy).


이번 연구에서 저희는 보상 모델링에 초점을 맞췄습니다. 사용자 측 피드백을 받아 보상모형을 훈련시킴으로써 인공지능이 사용자의 의도를 파악할 수 있도록 만드는 것이죠. 이와 동시에 강화학습을 활용하여 보상모형이 주는 보상량이 극대화되도록 정책을 훈련시킵니다. 다르게 말하자면 무엇을 할 것인가 (보상모형)의 학습과 어떻게 할 것인가 (정책)의 학습을 따로 분리시킨 것입니다.



190106_1.png 

Schematic illustration of reward modeling: a reward model is trained from the user’s feedback to capture their intentions; this reward model provides rewards to an agent trained with reinforcement learning.

보상 모델링 개요도: 보상모형의 훈련에 사용자 측 피드백을 제공함으로써 인공지능이 사용자의 의도를
파악할 수 있도록 만든다. 이렇게 형성된 보상모형은 강화학습을 통하여 훈련된 인공지능에게 보상을 제공한다.



In the long run, we would like to scale reward modeling to domains that are too complex for humans to evaluate directly. To do this, we need to boost the user’s ability to evaluate outcomes. We discuss how reward modeling can be applied recursively: we can use reward modeling to train agents to assist the user in the evaluation process itself. If evaluation is easier than behavior, this could allow us to bootstrap from simpler tasks to increasingly general and more complex tasks.


인간이 직접 평가를 하기 어려운 분야에서는 위에서 말한 보상모델링을 확대할 수 있습니다. 즉 인공지능이 내놓는 결과를 제대로 평가할 수 있도록 인간 사용자의 능력을 증강시키는 것이죠. 이를 위해서는 보상모델링을 회귀적으로 적용해야 합니다: 보상모델링을 활용하여 인간이 인공지능의 행동을 평가하는데 도움을 주는 인공지능을 훈련시키는 것이죠. 만일 결과물을 평가하는 것이 결과물을 만들어내는 것보다 더 쉽다고 가정한다면, 인간 사용자는 단순한 과제 평가뿐만 아니라 좀 더 일반적이고 복잡한 과제의 평가도 수행할 수 있을 것입니다.



190106_2.png 

Schematic illustration of recursive reward modeling: agents trained with recursive reward modeling (smaller circles on the right) assist the user in the evaluation process of outcomes produced by the agent currently being trained (large circle).

회귀적 보상 모델링의 개요도: 먼저 회귀적 보상모델링을 활용하여 인공지능을 훈련시킨 다음 (오른쪽 작은 동그라미),
해당 인공지능을 활용하여 인간 사용자가 현재 훈련 중인 또다른 인공지능의 결과물을 평가할 수 있도록 돕는다 (큰 동그라미).



For example, imagine we want to train an agent to design a computer chip. To evaluate a proposed chip design, we train other “helper” agents with reward modeling to benchmark the chip’s performance in simulation, calculate heat dissipation, estimate the chip’s lifetime, try to find security vulnerabilities, and so on. Collectively, the outputs of these helper agents enable the user to train the chip designer agent by assisting in the evaluation of the proposed chip design.


예를 들어, 컴퓨터 칩 설계용 인공지능을 개발했다고 가정해봅시다. 이 인공지능이 내놓은 컴퓨터 칩 설계도를 평가하기 위해 우리는 또다른 보조인공지능들을 만듭니다. 이 보조인공지능들은 시뮬레이션상에서의 컴퓨터 칩 성능, 발열, 예상수명, 보안결함 등을 평가하도록 훈련받습니다. 그리고 인간 사용자는 이 보조인공지능들이 내놓는 결과를 토대로 컴퓨터 칩 설계용 인공지능을 훈련시킵니다.



While each of the helper agents has to solve very difficult tasks that are far out of reach for today’s ML systems, these tasks are easier to perform than designing a chip in the first place: to design a computer chip you have to understand each of these evaluation tasks, but the reverse is not true. In this sense, recursive reward modeling could enable us to “scaffold” our agents to solve increasingly harder tasks while remaining aligned with user intentions.


비록 위에서 말한 보조인공지능 각각은 오늘날의 기계학습시스템들이 해결할 수 있는 것보다 더욱 어려운 문제들을 해결해야 하겠지만, 어쨌든 칩의 설계를 평가하는 일은 칩을 직접 설계하는 일보다 쉽습니다. 컴퓨터 칩을 설계하기 위해서는 상기한 평가기준들을 이해해야 하지만, 컴퓨터 칩을 평가할 경우 설계방법까지 알 필요는 없으니까요. 따라서 회귀적 보상모델링을 활용하면 인공지능이 수행하는 과제의 난이도를 점점 높이면서도 인간 사용자의 의도에 부합하게 행동하도록 만들 수 있습니다.