출처: https://www.engadget.com/2017/05/24/uc-berkeley-researchers-teach-computers-to-be-curious/


robot-hand-touching-red-leaves-picture-id626552778.gif




When you played through Super Mario Bros. or Doom for the very first time, chances are you didn't try to speedrun the entire game but instead started exploring -- this despite not really knowing what to expect around the next corner. It's that same sense of curiosity, the desire to screw around in a digital landscape just to see what happens, that a team of researchers at UC Berkeley have imparted into their computer algorithm. And it could drastically advance the field of artificial intelligence.


당신이 슈퍼마리오나 둠을 처음 플레이했을 때 게임 전부를 빨리 클리어하기 보다는 먼저 탐험을 했을 가능성이 높다. 다음 코너에서 무엇이 튀어나올지 모름에도 불구하고 말이다. UC버클리대 연구진은 바로 이런 호기심(단순히 무슨 일이 벌어질지 보기 위해 디지털 세계를 돌아니고 싶은 욕구)을 자신들의 컴퓨터 알고리즘에 넣었다. 그리고 호기심을 가진 알고리즘은 인공지능 분야를 크게 발전시킬 가능성이 있다.



Google's AlphaGo AI, the one that just repeatedly dominated the world's top Go players, uses what's called a Monte Carlo tree search function to decide its next move. Each "branch", or decision, in that tree has a weighted value that's determined from previous experiences and the relative rewards associated with them. This is known as "reinforcement learning" and is basically the same way you train a dog: rewarding effective behavior and discouraging the ineffective.


구글에서 개발한 알파고는 세계 최고의 바둑 고수들을 대상으로 계속해서 승리를 거둔 인공지능으로 다음 수를 정하기 위해 몬테카를로 트리서치라고 불리는 탐색방법을 사용한다. 각각의 나뭇가지, 또는 결정이 가지는 가치는 기존의 경험 및 그와 연관된 상대적 보상에 근거하여 결정된다. 이는 이른바 "강화학습"이라고 불리는 학습방법이며 우리가 개를 훈련시킬 때 쓰는 방법과 비슷하다. 잘한 행동에 대해 상을 주고 잘못한 행동에 대해서는 벌을 주는 것이다.



This obviously works well for dogs (all of whom are good) but it does present a significant shortcoming when training neural networks: the AI will only pursue high reward actions no matter what, even to the detriment of its overall efficiency. It will run into the same wall forever rather than take a moment and think to jump over it.


개들한테는 이런 방법이 확실히 잘 먹힌다(물론 좋은 개들일 경우에 말이다). 하지만 강화학습은 인공신경 훈련에 있어서는 큰 결점을 가진다. 강화학습으로 훈련한 인공지능은 그 무엇이든 상관하지 않고(심지어 전체적인 효율을 감소시켜서라도) 오로지 더 높은 보상만을 추구할 것이다. 이런 종류의 인공지능은 똑같은 벽에 계속해서 돌진할 것이며 잠시 행동을 멈추고 벽을 뛰어넘을 방법이 있는지 생각해 보지도 않을 것이다.



The UC Berkeley team's AI, however, has been imbued with the ability to make decisions and take action even when there isn't an immediate payoff. Though, technically, the researchers define curiosity as " the error in an agent's ability to predict the consequence of its own actions in a visual feature space learned by a self-supervised inverse dynamics model."


하지만 UC버클리대 연구진이 개발한 인공지능은 즉각적인 보상이 없어도 결정을 내리고 행동을 하는 능력을 가졌다. 연구진이 여기서 말하는 호기심이란 "에이전트가 자율역동역학모델을 통하여 학습한 시각적 특징공간에서 자신의 행위가 야기하는 결과를 예측할 수 있는 에이전트 능력의 오류"를 말한다.



To train the AI, the researchers taught it to play Super Mario Bros. and VizDoom. As you can see in the video below, rather than blindly repeat the same high value action over and over again, the system plays more like people do with the same basic understanding that there's more to the game than the wall immediately in front of them.


연구진은 슈퍼마리오와 비즈둠을 사용하여 인공지능을 훈련시켰다. 아래 동영상에서 볼 수 있는 것처럼, 이 인공지능은 그저 똑같은 고보상 행위를 반복하는 대신, 마치 '이 게임에는 바로 앞에 놓여 있는 벽 말고도 무엇인가가 더 있다'라는 이해를 가지고 사람들과 비슷하게 플레이를 한다.





자율예측을 통한 호기심 주도 탐색




"In many real-world scenarios, rewards extrinsic to the agent are extremely sparse, or absent altogether," the study's authors wrote. "In such cases, curiosity can serve as an intrinsic reward signal to enable the agent to explore its environment and learn skills that might be useful later in its life."


"실제상황에서는 대부분의 경우 외적 보상이 매우 드물거나 아예 없습니다"라고 연구진은 발견했다. "이러한 경우에는 호기심이 일종의 내적 보상으로 작동하여 에이전트로 하여금 주변환경을 탐색하고 나중에 유용하게 쓰일 수 있는 스킬을 배우도록 돕습니다"라고 연구진은 덧붙였다.



The implications of this are immense. We've already got Google training neural networks to design and generate baby neural nets, researchers at Brigham Young University teaching them to cooperate, and now this advancement enabling AI to teach itself. The pace at which artificial intelligence is getting smarter and more human-like is accelerating. Best of all, it shows no signs of slowing down.


이 연구가 가지는 의미는 매우 크다. 이미 구글은 "후손 인공신경망"을 설계하고 생성하도록 인공신경망을 훈련하는 중이며, 브리검영대학교 연구진은 인공지능한테 서로 협력하는 방법을 가리고 있는 와중에 호기심을 가지고 스스로 학습하는 인공신경망이 개발 중에 있다. 인공지능이 학습하고 인간을 닮아가는 속도가 점점 빨라지고 있으며, 앞으로도 그 속도가 느려지지 않을 것으로 보인다.


...


Project Abstract: In many real-world scenarios, rewards extrinsic to the agent are extremely sparse, or absent altogether. In such cases, curiosity can serve as an intrinsic reward signal to enable the agent to explore its environment and learn skills that might be useful later in its life. We formulate curiosity as the error in an agent's ability to predict the consequence of its own actions in a visual feature space learned by a self-supervised inverse dynamics model.


연구개요: 대부분의 실제상황에서는 에이전트에 대해 외적인 보상이 극히 드물거나 없다. 이러한 경우 호기심은 일종의 내적 보상신호로 작동하여 에이전트로 하여금 주변환경을 탐색하고 나중에 유용하게 쓰일 수도 있는 스킬을 배우는데 도움을 준다. 우리는 호기심을 '에이전트가 자율역동역학모델을 통하여 학습한 시각적 특징공간에서 자신의 행위가 야기하는 결과를 예측할 수 있는 에이전트 능력의 오류'로 규정한다.



Our formulation scales to high-dimensional continuous state spaces like images, bypasses the difficulties of directly predicting pixels, and, critically, ignores the aspects of the environment that cannot affect the agent. The proposed approach is evaluated in two environments: {\em VizDoom} and {\em Super Mario Bros}.


이러한 형식화는 이미지와 같은 고차원 연속상태공간까지 확장하여 적용할 수 있으며, 직접적인 픽셀 예측의 어려움을 극복할 뿐더러 더욱 중요하게는 에이전트에게 영향을 끼치지 않는 환경적 측면을 무시한다. 우리가 제안한 접근방식은 두 가지의 환경, 비즈둠과 슈퍼마리오 게임을 통하여 평가되었다.



Three broad settings are investigated: 1) sparse extrinsic reward, where curiosity allows for far fewer interactions with the environment to reach the goal; 2) exploration with no extrinsic reward, where curiosity pushes the agent to explore more efficiently; and 3) generalization to unseen scenarios (e.g. new levels of the same game) where the knowledge gained from earlier experience helps the agent explore new places much faster than starting from scratch.


여기에서는 크게 세 가지 설정을 연구하였는데, 첫째는 외적 보상이 매우 적은 설정으로 호기심이 주변환경과의 더 적은 상호작용만으로도 목적을 달성하도록 도왔으며, 둘째는 외적 보상이 아예 없는 설정으로 호기심만이 에이전트를 움직여 더욱 효율적으로 주변환경을 탐색하도록 하였다. 세번째로는 지금까지 경험하지 못한 상황(예를 들면 동일한 게임의 새로운 레벨)에 대한 일반화로 에이전트는 예전의 경험으로부터 얻은 지식에 바탕하여 새로운 장소들을 아예 아무것도 모르고 시작했을 때에 비해 더욱 빠르게 탐색할 수 있었다.