<그림 1> 로봇이 유튜브 동영상을 보고 요리하는 방법을 익히는 과정


Their paper is titled "Robot Learning Manipulation Action Plans by 'Watching' Unconstrained Videos from the World Wide Web." In simple terms, they set a goal to see if they could build a robot that is self-learning and can improve its knowledge about fine-grained manipulation actions via demo videos.

연구진이 발표한 논문은 "인터넷에 있는 무제약적 동영상의 '시청'을 통한 로봇의 조작행위 계획 학습"이라는 제목을 달고 있다.

연구진의 연구 목적은 과연 로봇이 동영상을 시청함으로써 세밀한 조작행위를 스스로 터득할 수 있는지, 그리고

계속해서 개선될 수 있는지를 밝히는 것이었다.

Jordan Novet in VentureBeat said these researchers utilized convolutional neural networks, to identify the way a hand is grasping an item and to recognize specific objects. 

VentureBeat의 조던 노벳은 이 연구진이 회선신경망을 사용하여 동영상에 나오는 손이 어떻게 사물을 잡는지,

손에 잡힌 물건이 무엇인지 로봇이 인식하도록 만들었다고 말했다.

The system also predicts the action involving the object and the hand. The new robot-training system is based on recent advances in our understanding of "deep neural networks," said Hopton.

그 외에도 이 시스템은 손이 사물을 어떻게 조작할지를 예측할 수 있다. 

홉튼의 말에 따르면, 이 새로운 로봇 훈련용 시스템은 최근 빠르게 발전하고 있는 "심화신경망" 기술에 기반하고 있다.

The authors wrote, "The lower level of the system consists of two convolutional neural network (CNN) based recognition modules, one for classifying the hand grasp type and the other for object recognition. The higher level is a probabilistic manipulation action grammar based parsing module that aims at generating visual sentences for robot manipulation."

논문 저자들의 말에 따르면, "이 시스템의 하층은 두 개의 회선신경망 기반 인식모듈로 구성되어 있다. 한 모듈은 손의 잡는 모양을

인식하고, 다른 모듈은 사물을 인식한다. 시스템의 상층은 확률적 조작행위 문법에 기반하여 로봇 손 조작에 필요한 

시각적 문장을 만들어내는 모듈로 구성되어 있다."

They said their experiments showed the system was able to learn manipulation actions by 'watching' the videos with high accuracy.

실험 결과, 이 시스템은 동영상을 봄으로써 높은 정확도로 조작행위를 배우는 것으로 드러났다.  

To train their model, researchers selected data from 88 YouTube videos of people cooking. From there, the researchers generated commands that a robot could then execute. They said, "Cooking is an activity, requiring a variety of manipulation actions, that future service robots most likely need to learn." 

연구진은 시스템을 훈련시키기 위해 사람들이 요리하는 장면을 담은 88개의 유튜브 동영상에서 데이터를 선정했다.

그리고 이 데이터를 사용하여 로봇이 수행할 명령문을 생성해냈다.

"요리라는 행위는 다양한 조작행위를 필요로 하는 행위이며, 미래의 서비스 로봇에게 있어서 가장 필요한 기능이라고 할 수 있습니다"

라고 연구진은 말했다.

음...약 몇십 년 정도 지나면 메이드 로봇이 시판될 수도 있겠네요(너무 낙관적인 예상일 수도 있겠지만 -_-)

물론 이걸 인공지능이라고 하기에는 좀 무리가 있겠지만, 그래도 일일히 프로그래밍을 하지 않아도 된다는 점에서

프로그래머들에게는 잘된 일이라고 생각합니다(아...그 반대인가? -_-)