기사 출처: https://www.extremetech.com/extreme/275768-artificial-general-intelligence-is-here-and-impala-is-its-name


딥마인드 블로그 원문: https://deepmind.com/blog/impala-scalable-distributed-deeprl-dmlab-30/




Impala-Figures-180206-r01-01.width-980.png

 

임팔라(IMPALA, Importance Weighted Actor-Learner Architecture, 또는 중요성에 의해 가중치가 부여되는 행위자-학습자 아키텍처)에서 행위자들은 변화도(gradient)를 계산하지 않는다. 그 대신에 행위자들은 자신들이 겪은 경험을 모아 중앙의 학습자에게 전달한다. 학습자는 해당 경험을 가지고 변화도를 계산하는데, 이렇게 해서 행위자와 학습자가 완전히 독립적인 모델이 탄생한다. 이러한 모델은 컴퓨터 한 대 또는 서로 간에 통신하는 여러 대를 가지고 가동시킬 수 있다. 또한 이렇게 학습과 행위를 분리할 경우 행위자들이 학습을 위해 기다릴 필요가 없어 전체 시스템의 성능이 개선된다. 그러나 학습과 행위가 분리되면 행위자가 학습자의 정책과 따로 노는 상황이 발생한다. 이를 해결하기 위해 딥마인드는 V-trace를 적용, 행위자가 학습자의 정책에서 벗어나는 것을 보상하였다.

 


Impala-Figures-180206-r01-03%20%281%29.width-980.png


기존의 아키텍처는 각 학습단계마다 정지를 시켜야 했지만, 임팔라에서는 학습이 연속적으로 이루어진다.

 


One of the most significant AI milestones in history was quietly ushered into being this summer. We speak of the quest for Artificial General Intelligence (AGI), probably the most sought-after goal in the entire field of computer science. With the introduction of the Impala architecture, DeepMind, the company behind AlphaGo and AlphaZero, would seem to finally have AGI firmly in its sights.


인류 역사상 가장 중요한 인공지능 전환점 중 하나가 올해 여름에 조용하게 도래하였다. 여기서 말하는 전환점이란 바로 인공일반지능(AGI)을 향한 여정의 전환점으로, 컴퓨터과학계가 가장 학수고대하던 목표라고 할 수 있다. 임팔라(IMPALA) 아키텍처가 개발됨에 따라, 알파고와 알파제로를 만든 딥마인드는 마침내 인공일반지능의 개발을 눈앞에 두고 있다.

 


Let’s define AGI, since it’s been used by different people to mean different things. AGI is a single intelligence or algorithm that can learn multiple tasks and exhibits positive transfer when doing so, sometimes called meta-learning. During meta-learning, the acquisition of one skill enables the learner to pick up another new skill faster because it applies some of its previous “know-how” to the new task. In other words, one learns how to learn — and can generalize that to acquiring new skills, the way humans do. This has been the holy grail of AI for a long time.


일단 인공일반지능의 의미를 규정하여 볼 필요가 있다. 왜냐하면 사람마다 인공일반지능을 다르게 규정하고 있기 때문이다. 인공일반지능이란 다양한 과제를 학습할 수 있으며 그 과정에서 긍정적인 지식 이전을 보이는, 다시 말해 메타학습을 할 수 있는 단일 지능 또는 알고리즘이다. 메타학습을 할 때는 기술을 하나 습득함으로써 또다른 기술을 더욱 빠르게 습득할 수 있다. 왜냐하면 과거에 터득한 노하우 중 일부를 새로운 과제에 적용하기 때문이다. 쉽게 말해서 메타학습은 어떻게 배우는지를 배우는 능력이며, 이를 일반화하여 새로운 기술을 습득하는데 사용한다. 마치 인간처럼 말이다. 이러한 메타학습은 인공지능 분야에서 성배나 다름없었다.

 


As it currently exists, AI shows little ability to transfer learning towards new tasks. Typically, it must be trained anew from scratch. For instance, the same neural network that makes recommendations to you for a Netflix show cannot use that learning to suddenly start making meaningful grocery recommendations.  Even these single-instance “narrow” AIs can be impressive, such as IBM’s Watson or Google’s self-driving car tech. However, these aren’t nearly so much so an artificial general intelligence, which could conceivably unlock the kind of recursive self-improvement variously referred to as the “intelligence explosion” or “singularity.”


기존의 인공지능은 새로운 과제에 대해 이전학습을 잘 하지 못한다. 일반적으로 인공지능이 새 과제를 터득하려면 아예 처음부터 새로 훈련을 시켜야 한다. 넷플릭스 드라마를 추전해주는 인공지능을 가지고 곧바로 식품 추천에 사용할 수 없는 것과 같다. 사실 IBM 왓슨이나 구글의 자율주행차처럼 인공전문지능(narrow AI)도 굉장한 능력을 보여줄 수 있다. 하지만 이러한 인공전문지능은 인공일반지능보다 못한데, 왜냐하면 인공일반지능은 재귀적인 자가개선이 가능하기 때문이다. 이러한 재귀적 자가개선을 지능폭발 또는 특이점이라 한다.

 


Those who thought that day would be sometime in the far distant future would be wise to think again. To be sure, DeepMind has made inroads on this goal before, specifically with their work on Psychlab and Differentiable Neural Computers. However, Impala is their largest and most successful effort to date, showcasing a single algorithm that can learn 30 different challenging tasks requiring various aspects of learning, memory, and navigation.


아주 머나먼 미래에나 인공일반지능이 탄생할 것이라고 예상했던 사람들은 다시 생각을 해보는 편이 좋을 것이다. 딥마인드의 경우 오래 전부터 인공일반지능을 연구하여 왔으며, 이들이 개발한 사이크랩과 미분가능신경컴퓨터가 좋은 예이다. 하지만 임팔라는 현재까지 딥마인드가 인공일반지능과 관련하여 이룩한 성과 중에서 가장 규모가 크고 성공적인 것이다. 딥마인드는 임팔라를 통해 알고리즘 하나가 30가지의 서로 다른 과제(다양한 종류의 학습, 기억, 길찾기)를 학습할 수 있음을 보였다.

 


But enough preamble; let’s look under the hood and see what makes Impala tick. First, Impala’s based on reinforcement learning, an AI technique that has its origins in behaviorism. It parallels the way humans build up an intuition-based skill, such as learning to walk or riding a bicycle. Reinforcement learning has already been used for some amazing achievements, such as endowing an AI with emotions (see video below) and learning complex games like Go and Poker.


서론은 여기서 마치고 임팔라의 작동원리에 관해 알아보자. 우선 임팔라는 강화학습에 기반하고 있다. 강화학습이란 인공지능 개발의 한 방법론으로 행동주의에서 기원한다. 인간이 걷기 또는 자전거 타기와 같이 본능에 기반한 기술을 배우는 방법과 유사하다. 이미 우리는 강화학습을 통해 놀라운 성과를 이루어냈다. 인공지능에 감정을 부여하거나 바둑 및 포커와 같은 복잡한 게임을 학습하는 데에도 강화학습이 쓰였다.

 


However even these reinforcement learning algorithms couldn’t transfer what they’d learned about one task to acquiring a new task. In order to realize this achievement, DeepMind supercharged a reinforcement learning algorithm called A3C. In so-called actor-critic reinforcement learning, of which A3C is one variety, acting and learning are decoupled so that one neural network, the critic, evaluates the other, the actor. Together, they drive the learning process. This was already the state of the art, but DeepMind added a new off-policy correction algorithm called V-trace to the mix, which made the learning more efficient, and crucially, better able to achieve positive transfer between tasks.


하지만 강화학습 알고리즘도 자신이 특정 과제에서 배운 지식을 다른 과제에 적용할 수는 없다. 이를 가능하게 만들기 위해서 딥마인드는 이른바 A3C라고 불리는 강화학습알고리즘을 개선하였다. A3C는 행위자-비평가 강화학습 알고리즘의 한 종류인데, 해당 알고리즘에서는 하나의 인공신경망 안에 행동과 학습이 분리되어 있다. 즉 행위자 모듈이 어떤 행동을 하면 비평가 모듈이 이를 평가하는 식으로 학습이 이루어지는 것이다. 이것만으로도 아주 훌륭한 결과를 낼 수 있었지만, 딥마인드는 여기에 V-트레이스라고 명명된 정책외(off-policy) 수정 알고리즘을 추가하여 학습 효율을 높였으며, 그보다 더 중요하게는 과제들 간 긍정적인 지식이전이 이루어지도록 만들었다.

 


To be sure, this doesn’t herald the dawn of “conscious robots” or even ones that have an imagination. While we think of such attributes as hallmarks of intelligence because they apply to humans, this is somewhat misleading. As the AI researcher Shane Legg argues in the video below, things like consciousness and imagination may be traits useful for solving particular kinds of problems, such as coordinating between large numbers of people or exchanging information.


그렇다고 해서 이것이 의식 있는 로봇 또는 우리가 영화에서 자주 보는 로봇이 곧 탄생할 것임을 의미하지는 않는다. 우리는 지능의 궁극적인 표현이 의식이나 상상력이라고 생각하지만 이는 틀린 생각이다. 인공지능 연구자 셰인 레그에 따르면, 의식이나 상상력은 특정한 종류의 과제만을 해결하는데 유용할 수도 있다. 예를 들면 대규모 인파 속에서 이동하거나 정보를 교환하는 것 등 말이다.

 


However, a superintelligent algorithm or agent can exist without such attributes. In fact, we would likely be wise to ensure no AI ever does possess consciousness as we know it.


하지만 초지능 알고리즘이나 대리체는 이러한 성질이 없어도 존재할 수 있다. 사실 인공지능이 우리와 같은 의식을 가지지 못하도록 하는 편이 더 나을 수도 있다.