SF / 과학 포럼
SF 작품의 가능성은 어떻게 펼쳐질 수 있을까요? 그리고 어떤 상상의 이야기가 가능할까요?
SF에 대한 가벼운 흥미거리에서부터 새로운 창작을 위한 아이디어에 이르기까지...
여기는 과학 소식이나 정보를 소개하고, SF 속의 아이디어나 이론에 대한 의견을 나누며, 상상의 꿈을 키워나가는 곳입니다.
( 이 게시판은 최근에 의견이나 덧글이 추가된 순서대로 정렬됩니다. )
출처: https://deepmind.com/blog/learning-through-human-feedback/
We believe that Artificial Intelligence will be one of the most important and widely beneficial scientific advances ever made, helping humanity tackle some of its greatest challenges, from climate change to delivering advanced healthcare. But for AI to deliver on this promise, we know that the technology must be built in a responsible manner and that we must consider all potential challenges and risks.
우리는 인공지능이 인간 역사상 가장 중요하고 인류에게 유익한 과학적 진보임을 확신하며, 기후변화에서 첨단의학 보급에 이르기까지 다양한 과제를 해결하는데 인류에게 도움을 줄 것으로 기대한다. 그러나 인공지능이 이 기대에 부합하기 위해서는 일단 인공지능 기술이 안전성을 확보해야 하며 앞으로 발생할 수 있는 각동 난제와 위험을 고려해야 한다.
One of the central questions in this field is how we allow humans to tell a system what we want it to do and - importantly - what we don’t want it to do. This is increasingly important as the problems we tackle with machine learning grow more complex and are applied in the real world.
안전한 인공지능을 개발하는데 있어서 가장 중요한 과제 중 하나는 인간이 인공지능에게 자신이 무엇을 원하는지, 그리고 더 중요하게는 자신이 무엇을 원하지 않는지 가르치는 것이다. 기계학습 기술이 더욱 복잡해지고 현실에 적용될수록 해당 과제의 중요성은 점점 커지고 있다.
The first results
from our collaboration demonstrate one method to address this, by
allowing humans with no technical experience to teach a reinforcement
learning (RL) system - an AI that learns by trial and error - a complex
goal. This removes the need for the human to specify a goal for the
algorithm in advance. This is an important step because getting the goal
even a bit wrong could lead to undesirable or even dangerous behaviour.
In some cases, as little as 30 minutes of feedback from a non-expert is
enough to train our system, including teaching it entirely new complex
behaviours, such as how to make a simulated robot do backflips.
우리는 이 과제를 해결하기 위하여 기술적 지식이 전혀 없는 인간이라도 인공지능(강화학습시스템)에게 복잡한 목표를 가르칠 수 있는 방법을 개발했다. 이 방법을 사용하면 목표를 인공지능한테 미리 설정해주지 않아도 된다. 해당 방법이 중요한 이유는, 목표가 조금만 잘못되어도 인공지능이 위험한 행동을 할 수 있기 때문이다. 우리가 개발한 시스템을 훈련하기 위해서는 비전문가가 약 30분간 피드백을 주는 것 만으로도 충분하며, 가상현실 로봇한테 공중제비( -_-)를 가르치는 등 복잡한 행동을 가르칠 수 있다.
이 가상현실 로봇한테 공중제비를 시키기 위해 약 900번의 인간 피드백이 필요했다.
The system - described in our paper Deep Reinforcement Learning from Human Preferences - departs from classic RL systems by training the agent from a neural network known as the ‘reward predictor’, rather than rewards it collects as it explores an environment.
우리가 개발한 시스템은 인간선호기반 심층강화학습 논문에 기술되어 있으며 외부 환경을 탐색하면서 얻는 보상에 기반한 전통적 강화학습시스템과는 달리 "보상예측기"라는 인공신경망을 사용하여 에이전트를 훈련시킨다.
It consists of three processes running in parallel:
A reinforcement learning agent explores and interacts with its environment, such as an Atari game.
Periodically, a pair of 1-2 second clips of its behaviour is sent to a human operator, who is asked to select which one best shows steps towards fulfilling the desired goal.
The human’s choice is used to train a reward predictor, which in turn trains the agent. Over time, the agent learns to maximise the reward from the predictor and improve its behaviour in line with the human’s preferences.
인간선호기반 심층강화학습 시스템에서는 아래 과정들이 동시에 진행된다:
1. 강화학습 에이전트가 주변 환경을 탐색하고 주변 환경과 상호작용을 한다(이 경우 주변 환경은 아타리 게임이다)
2. 강화학습 에이전트의 행위를 찍은 1~2초짜리 동영상 2개를 주기적으로 인간 운영자에게 전송한다. 인간 운영자는 동영상 2개를 보고 그 중에서 목표 달성에 도움이 되는 행위가 찍힌 동영상 1개를 고른다.
3. 인간 운영자의 선택결과를 가지고 보상예측기를 훈련시킨 다음, 다시 이 보상예측기를 가지고 에이전트를 훈련시킨다. 시간이 지나면서 에이전트는 보상예측기가 정하는 보상을 최대화하는 방법을 배우며 인간의 선호에 맞추어 자신의 행동을 개선한다.
우리가 개발한 인간선호기반 강화학습시스템에서는 달성해야 할 목표의 학습과 목표를 달성하기 위한 행동의 학습이 따로 구분되어 있다.
This iterative approach to learning means that a human can spot and
correct any undesired behaviours, a crucial part of any safety system.
The design also does not put an onerous burden on the human operator,
who only has to review around 0.1% of the agent’s behaviour to get it to
to do what they want. However, this can mean reviewing several hundred
to several thousand pairs of clips, something that will need to be
reduced to make it applicable to real world problems.
위에서 말한 접근방식에서는 인공지능이 올바르지 않은 행동을 할 경우 인간이 이를 발견하고 수정할 수 있다. 이는 모든 안전시스템에 있어서 매우 중요한 기능이다. 또한 위에서 말한 학습방법은 인간 운영자에게 큰 부담을 주지 않는데, 왜냐하면 인간 운영자는 에이전트가 하는 모든 행위 중에서 겨우 0.1%만 검사하면 되기 때문이다. 그러나 인간 운영자가 검사해야 하는 동영상 쌍이 수 백개에서 수 천개까지 늘어날 수 있기 때문에 실제 상황에 적용을 하려면 검사해야 하는 동영상 쌍 개수를 줄어야 한다.
인간 운영자는 위 동영상 2개 중에서 인공지능이 잘 했다고 생각되는 하나를 골라야 한다.
이 예제에서는 아타리 게임 큐버트를 사용했으며, 오른쪽 동영상이 게임 점수를 따는데 더 나은 행동임을 알 수 있다.
In the Atari game Enduro, which involves steering a car to overtake a line of others and is very difficult to learn by the trial and error techniques of a traditional RL network, human feedback eventually allowed our system to achieve superhuman results. In other games and simulated robotics tasks, it performed comparably to a standard RL set-up, while in a couple of games like Qbert and Breakout it failed to work at all.
아타리 게임 엔듀로의 경우 자동차를 조종하여 다른 자동차를 추월해야 하는데, 이는 시행착오를 통하여 학습을 하는 기존 강화학습시스템에서는 매우 배우기가 어려운 행동이다. 우리가 개발한 인간선호기반 강화학습시스템에서는 인간의 피드백을 이용하여 인간을 뛰어넘는 결과를 달성할 수 있었다. 다른 게임들과 로봇 시뮬레이션 과제에서도 일반적인 강화학습시스템과 맞먹는 성능을 보였으나, 큐버트와 브레이크아웃(벽돌깨기)에서는 제대로 작동하지 않았다.
But the ultimate purpose of a system like this is to allow humans to specify a goal for the agent, even if it is not present in the environment. To test this, we taught agents various novel behaviours such as performing a backflip, walking on one leg or learning to driving alongside another car in Enduro, rather than overtake to maximise the game score.
그러나 인간선호기반 강화학습시스템의 궁극적인 목표는 인간이 에이전트에게 목표를 설정하는데 있으며, 더 나아가서는 주변 환경에서 찾아볼 수 없는 목표를 설정하는데 있다. 우리는 이를 확인하기 위해 에이전트에게 공중제비 돌기를 시키거나, 한발 뛰기를 시키거나, 엔듀로 게임의 경우 다른 자동차를 추월하여 게임 점수를 늘리는 대신 다른 자동차와 나란히 가도록 가르쳤다.
원래 엔듀로 게임에서는 가능한 한 모든 차를 추월해야 게임 점수를 얻을 수 있다.
하지만 우리가 개발한 인간선호기반 강화학습시스템에서는 게임 점수와 상관없이 다른 자동차와 나란히 가도록 에이전트를 훈련시키는데 성공했다.
Although these tests showed some positive results, others showed its
limitations. In particular, our set-up was susceptible to reward hacking
- or gaming its reward function - if human feedback was discontinued
early in the training. In this scenario, the agent continues to explore
its environment, meaning the reward predictor is forced to estimate
rewards for situations it has received no feedback on. This can lead it
to overpredict the reward, incentivising the agent to learn the wrong -
often strange - behaviours. An example can be seen in the video below,
where the agent has found that hitting the ball back and forth is a
better strategy than winning or losing a point.
이 실험에서는 긍정적인 결과를 일부 얻을 수 있었으나 한계도 발견할 수 있었다. 우리가 개발한 인간선호기반 강화학습시스템에서는 훈련 초기에 인간 운영자가 피드백 제공을 중단할 경우 이른바 '보상해킹'이 발생한다. 이 경우 에이전트는 계속해서 주변 환경을 탐색하나 보상예측기는 자신이 피드백을 받은 적이 없는 상황에 대해 무슨 보상이 있는지 예측해야 한다. 그 결과로 보상의 과다예측이 이루어지며 에이전트가 올바르지 않거나 매우 이상한 행동을 할 수 있다. 아래 동영상을 보면 보상해킹이 발생한 퐁 에이전트가 게임 점수를 늘리거나 잃는 대신 그냥 계속해서 공을 앞튀로 튕겨내는 광경을 볼 수 있다.
Understanding flaws like these is crucial to ensure we avoid failures and build AI systems that behave as intended.
이러한 결함을 파악하는 것은 앞으로 인공지능 시스템의 실패를 방지하고 우리가 원하는대로 작동하도록 만드는 데 있어 매우 중요하다.
There is still more work to be done to test and enhance this system, but already it shows a number of critical first steps in producing systems that can be taught by non-expert users, are economical with the amount of feedback they need, and can be scaled to a variety of problems.
Other areas of exploration could include reducing the amount of human feedback needed or giving humans the ability to give feedback through a natural language interface. This would mark a step-change in creating a system that can easily learn from the complexity of human behaviour, and a crucial step towards creating AI that works with and for all of humanity.
우리가 개발한 인간선호기반 강화학습시스템은 앞으로도 지속적인 보완과 개선이 필요하나, 비전문가 유저들도 학습을 시킬 수 있는 인공지능 시스템 제작에 있어 핵심적인 첫 단계들을 보여주고 있다. 해당 인공지능 시스템은 적은 수의 피드백만으로도 학습이 가능하며 다양한 과제에 적용할 수 있을 것이다. 앞으로 연구해야 할 분야 중에는 인공지능 시스템의 학습에 필요한 인간 피드백의 양을 줄이고 자연어 인터페이스를 통하여 인공지능 시스템에게 피드백을 줄 수 있도록 하는 것이 있다. 이는 인간의 복잡한 행동으로부터 쉽게 학습을 하는 인공지능 시스템을 개발하는데 있어 큰 도약이 될 것이며, 또한 인류 전체에 봉사하는 인공지능 시스템을 향한 중요한 한 걸음이 될 것이다.