출처: https://research.googleblog.com/2017/06/multimodel-multi-task-machine-learning.html#1


Over the last decade, the application and performance of Deep Learning has progressed at an astonishing rate. However, the current state of the field is that the neural network architectures are highly specialized to specific domains of application. An important question remains unanswered: Will a convergence between these domains facilitate a unified model capable of performing well across multiple domains?


최근 10년간 심층학습기술의 사용과 성능은 매우 빠른 속도로 발전하여 왔다. 그러나 오늘날의 심층학습기술에서 사용하는 인공신경망 아키텍처는 특정 분야에만 고도로 특화되어 있다. 다양한 분야에서 높은 성능을 보이는 범용적 인경신경망 모델을 구현할 수 있을 것인가에 대한 질문은 아직도 해결되지 못한 채로 남아있다.



Today, we present MultiModel, a neural network architecture that draws from the success of vision, language and audio networks to simultaneously solve a number of problems spanning multiple domains, including image recognition, translation and speech recognition. While strides have been made in this direction before, namely in Google’s Multilingual Neural Machine Translation System used in Google Translate, MultiModel is a first step towards the convergence of vision, audio and language understanding into a single network.


우리가 오늘 소개할 '멀티모델'은 화상특화, 언어특화, 음성특화 인공신경망의 성공사례에 기반하여 화상인식, 번역 및 음성인식과 같은 다양한 분야의 과제를 동시에 해결할 수 있는 인공신경망 아키텍처이다.  비록 이와 관련한 연구는 예전에도 있었으며 구글 번역에서 사용되는 다언어신경기계번역시스템도 그 노력의 연장이지만, 이번에 우리가 개발한 멀티모델 인공신경망 아키텍처는 화상, 언어, 음성 이해능력을 하나의 인공신경망에 통합시키려는 첫 걸음이라 할 수 있다.



The inspiration for how MultiModel handles multiple domains comes from how the brain transforms sensory input from different modalities (such as sound, vision or taste), into a single shared representation and back out in the form of language or actions. As an analog to these modalities and the transformations they perform, MultiModel has a number of small modality-specific sub-networks for audio, images, or text, and a shared model consisting of an encoder, input/output mixer and decoder, as illustrated below.


멀티모델이 다양한 분야의 과제를 해결하는 방법은 인간의 뇌가 다양한 양상의 감각신호(청각, 시각, 미각)를 받아들여 하나의 통합된 표현으로 변환한 다음 그것을 다시 언어나 행동의 형태로 표출하는 방법에 기반하여 개발되었다. 아래 그림에서 볼 수 있듯이 멀티모델은 음성, 화상, 글 각각에 특화된 다수의 소규모 하위인공신경망과 부호기, 입출력 혼합기와 해독기로 구성된 통합모델을 가진다.


image1.png


멀티모델의 개요도. 중앙에는 입력 부호기와 입출력 혼합기, 복호기가 있으며 그 주변에는 화상, 음성, 글 인식에 특화된 하위모듈이 연결되어 있다.




We demonstrate that MultiModel is capable of learning eight different tasks simultaneously: it can detect objects in images, provide captions, recognize speech, translate between four pairs of languages, and do grammatical constituency parsing at the same time. The input is given to the model together with a very simple signal that determines which output we are requesting. Below we illustrate a few examples taken from a MultiModel trained jointly on these eight tasks.


우리는 멀티모델이 8가지의 다양한 과제를 동시에 학습할 수 있음을 보이고자 한다. 멀티모델은 사진에서 특정 물체를 찾아낼 수 있으며, 사진에 글로 된 해설을 달 수 있으며, 대화를 인식할 수 있으며, 언어를 번역할 수 있으며, 문장구조를 문법적으로 분석할 수 있다. 멀티모델에는 특별한 입력을 주어 우리가 원하는 출력이 무엇인지 알려준다. 아래 그림에서는 8가지 과제(음성인식, 사진분류, 사진해설, 문법구조분석, 영어-독일 번역, 독일-영어 번역, 영어-프랑스어 번역, 프랑스어-영어 번역)를 수행하도록 훈련시킨 멀티모델의 결과물 예제를 볼 수 있다.




image2.png


멀티모델은 사진 해설, 사진 분류, 영어-프랑스어 번역, 영어-독일어 번역, 문장구조의 문법적 분석을 동시에 해낼 수 있다.




It is not only possible to achieve good performance while training jointly on multiple tasks, but on tasks with limited quantities of data, the performance actually improves. To our surprise, this happens even if the tasks come from different domains that would appear to have little in common, e.g., an image recognition task can improve performance on a language task. It is important to note that while MultiModel does not establish new performance records, it does provide insight into the dynamics of multi-domain multi-task learning in neural networks, and the potential for improved learning on data-limited tasks by the introduction of auxiliary tasks.


참고로 멀티모델은 다양한 분야의 과제뿐만 아니라 훈련자료가 매우 적은 과제도 잘 수행해낸다. 놀랍게도 이러한 현상은 과제 간에 비슷한 점이 거의 없는 것처럼 보이는 상황에서도 발생한다. 예를 들어 멀티모델에 화상인식 과제를 줘서 훈련을 시키면 언어관련 과제를 해결하는 능력이 덩달아서 좋아진다. 비록 멀티모델은 기존의 인공신경망 모델을 뛰어넘는 성능을 보여주지는 못했으나 다분야 다과제 인공신경망 학습의 역학관계에 대한 일종의 실마리를 제공해줄 수 있으며, 보조적인 과제를 입력하여 훈련자료가 매우 적은 과제의 학습을 개선할 수 있다는 가능성을 보여주고 있다.



There is a longstanding saying in machine learning: “the best regularizer is more data”; in MultiModel, this data can be sourced across domains, and consequently can be obtained more easily than previously thought. MultiModel provides evidence that training in concert with other tasks can lead to good results and improve performance on data-limited tasks.


기계학습 분야에서는 "더 많은 자료가 최적의 정규화기이다"라는 오래된 속담이 있다. 멀티모델의 경우 다양한 분야에서 훈련자료를 얻을 수 있기 때문에 기존에 예상했던 것보다 더 쉽게 훈련자료를 수집할 수 있다. 멀티모델은 다양한 분야의 과제로 훈련을 시킬 경우 좋은 결과를 얻을 수 있을 뿐 아니라 훈련자료가 매우 적은 과제에 대해서도 성능을 개선할 수 있음을 보여주고 있다.



Many questions about multi-domain machine learning remain to be studied, and we will continue to work on tuning Multimodel and improving its performance. To allow this research to progress quickly, we open-sourced MultiModel as part of the Tensor2Tensor library. We believe that such synergetic models trained on data from multiple domains will be the next step in deep learning and will ultimately solve tasks beyond the reach of current narrowly trained networks.


아직도 다분야 기계학습에 관해서는 많은 의문들이 해결되지 않은 채 남아 있기 때문에, 우리는 앞으로 멀티모델의 성능을 개선하는데 초점을 맞출 예정이다. 해당 연구를 더욱 빠르게 진행하기 위하여 우리는 멀티모델의 코드를 텐서2텐서 라이브러리에 공개하였다. 우리는 다양한 분야에서 수집한 자료로 훈련을 시킨 협동모델이 심층학습기술의 다음 단계라고 확신하며, 궁극적으로는 현재의 특화 인공신경망이 해결할 수 없는 과제를 해결해낼 수 있으리라 예상한다.