출처: https://futurism.com/ai-learn-mistakes-openai/


maxresdefault-1280x600.jpg



OpenAI continues to make strides in reinforcement learning algorithms for training artificial intelligence agents. Their latest platform, released late February, allows AIs to learn from their mistakes by looking at them as goals instead of failures.

 

OpenAI는 인공지능 대리체 학습을 위한 강화학습 알고리즘을 지속적으로 개발 중에 있다. OpenAI 2월 말에 발표한 최신 플랫폼은 인공지능으로 하여금 실수를 실패가 아닌 목적으로 간주하도록 만들어 인공지능이 자신의 실수에서 배울 수 있도록 돕는다.



An AI That Looks Back

뒤를 돌아보는 인공지능



In recent months, researchers at OpenAI have been focusing on developing artificial intelligence (AI) that learns better. Their machine learning algorithms are now capable of training themselves, so to speak, thanks to the reinforcement learning methods of their OpenAI Baselines. Now, a new algorithm lets their AI learn from its own mistakes, almost as human beings do.


최근 몇 개월간 OpenAI 연구진은 학습을 더 잘하는 인공지능 개발에 집중하고 있다. OpenAI의 기계학습 알고리즘은 현재 스스로 훈련을 할 수 있으며, 이는 OpenAI Baselines의 강화학습 방법 덕분이다. 최근에 발표된 새 알고리즘은 인공지능으로 하여금 마치 사람처럼 스스로의 실수로부터 배우도록 한다.



The development comes from a new open-source algorithm called Hindsight Experience Replay (HER), which OpenAI researchers released earlier this week. As its name suggests, HER helps an AI agent “look back” in hindsight, so to speak, as it completes a task. Specifically, the AI reframes failures as successes, according to OpenAI’s blog.


이번에 OpenAI에서 개발된 오픈소스 알고리즘은 사후경험재생(HER)이라고 불리며, 이번 주 초에 공개되었다. 사후경험재생 알고리즘은 인공지능이 과제를 완료한 후에 과거를 다시 뒤돌아 보도록만든다. OpenAI의 블로그에 따르면, 이 알고리즘을 탑재한 인공지능은 실수를 성공으로 재해석한다.



“The key insight that HER formalizes is what humans do intuitively: Even though we have not succeeded at a specific goal, we have at least achieved a different one,” the researchers wrote. “So why not just pretend that we wanted to achieve this goal to begin with, instead of the one that we set out to achieve originally?”


“HER가 형식화하고 있는 핵심은 원래 인간이 본능적으로 해오던 것입니다. 특정한 목표를 달성하는데는 실패했지만, 최소한 다른 목적을 달성하는데에는 성공했다는 것이죠라고 연구진은 밝혔다. “그러니까 원래 달성하려고 했던 목표 대신, ‘내가 달성하려는 목표는 처음부터 이거였어라고 생각하면 되지 않을까요?”



Simply put, this means that every failed attempt as an AI works towards a goal counts as another, unintended “virtual” goal.

쉽게 말해 인공지능이 목표를 달성하는 과정에서 실수를 범하면, 인공지능은 자신의 실수를 의도치 않은 가상의 목표라고 간주한다.



Think back to when you learned how to ride a bike. On the first couple of tries, you actually failed to balance properly. Even so, those attempts taught you how to not ride properly, and what to avoid when balancing on a bike. Every failure brought you closer to your goal, because that’s how human beings learn.


당신이 자전거 타기를 배웠을 때를 기억해 보라. 처음 몇 번 시도를 하는 과정에서 당신은 균형을 잡지 못해 넘어졌을 것이다. 그러나 이러한 시도를 통해서 당신은 어떻게 하면 자전거를 잘 못 타는지배웠을 것이며, 자전거로 균형을 잡을 때 어떻게 하면 안 되는지 학습했을 것이다. 당신이 실수를 할 때마다 목표에 점점 더 가까워진다. 바로 이것이 인간이 학습을 하는 방식이기 때문이다.



Rewarding Every Failure

모든 실수에 보상을



With HER, OpenAI wants their AI agents to learn the same way. At the same time, this method will become an alternative to the usual rewards system involved in reinforcement learning models. To teach AI to learn on its own, it has to work with a rewards system: either the AI reaches its goal and gets an algorithm “cookie” or it doesn’t. Another model gives out cookies depending on how close an AI is to achieving a goal.


OpenAI는 사후경험재생 알고리즘을 사용하여 인공지능이 위와 같은 방식으로 학습하기를 원한다. 이러한 접근방식은 강화학습모델에 사용되는 기존 보상체계의 대안이 될 수 있다. 인공지능이 스스로 학습을 하도록 만들려면 보상체계가 있어야 한다. 인공지능이 목표를 달성하면 보상을 주고, 반대라면 주지 않는 것이다. 또다른 모델에서는 인공지능이 목표에 얼마나 접근했는지에 따라 보상을 준다.



Both methods aren’t perfect. The first one stalls learning, because an AI either gets it or it doesn’t. The second one, on the other hand, can be quite tricky to implement, according to the IEEE Spectrum. By treating every attempt as a goal in hindsight, HER gives an AI agent a reward even when it actually failed to accomplish the specified task. This helps the AI learn faster and at a higher quality.


그러나 이 방법들은 완벽하지 않다. 첫번째 방법에서는 인공지능이 보상을 받거나 받지 못하거나 둘 중 하나이기 때문에 학습을 방해한다. 두번째 방법은 사용하기가 매우 까다롭다. 하지만 사후경험재생 알고리즘은 인공지능이 하는 모든 시도를 일종의 목적으로 간주하기 때문에, 인공지능이 특정한 목표를 달성하는데 실패해도 보상을 준다. 이 덕분에 인공지능의 학습 속도와 정확도가 높아진다.



“By doing this substitution, the reinforcement learning algorithm can obtain a learning signal since it has achieved some goal; even if it wasn’t the one that you meant to achieve originally. If you repeat this process, you will eventually learn how to achieve arbitrary goals, including the goals that you really want to achieve,” according to OpenAI’s blog.


이러한 대체행위를 통해 강화학습 알고리즘은 학습신호를 받게 됩니다. 원래 달성하려던 목표는 이루지 못했지만 어쨌든 어떤 목표를 이뤘다고 간주하기 때문이죠. 이 과정을 계속 반복하면 인공지능은 원래 달성해야 하는 주 목표 외에도 기타 부수적인 목표를 달성하는 방법들을 배우게 됩니다.



This method doesn’t mean that HER makes it completely easier for AI agents to learn specific tasks. “Learning with HER on real robots is still hard since it still requires a significant amount of samples,” OpenAI’s Matthias Plappert told IEEE Spectrum.


하지만 사후경험재생 알고리즘이 있다고 해서 인공지능의 학습이 쉬워진다는 의미는 아니다. “실제 로봇에 해당 알고리즘을 탑재해도 학습은 여전히 어렵습니다. 여전히 엄청난 양의 샘플이 필요하거든요라고 OpenAI의 매티아스 플레퍼트가 말했다.



In any case, as OpenAI’s simulations demonstrated, HER can be quite helpful at “encouraging” AI agents to learn even from their mistakes, pretty much as we all do — the major difference being that AIs don’t get frustrated like the rest of us feeble folks.


어쨌든 간에 OpenAI의 시뮬레이션에 따르면 사후경험재생 알고리즘은 인공지능에게 실수를 통해 배우도록 동기를 부여한다’. 원래 인간도 이렇게 한다. 다만 인공지능은 인간과 달리 짜증은 내지 않을 것이다.




OpenAI에서 개발한 사후경험재생(HER) 소개 동영상






OpenAI에서 개발한 사후경험재생(HER) 시뮬레이션