출처: http://www.kurzweilai.net/researchers-watch-video-images-people-are-seeing-decoded-from-their-fmri-brain-scans-in-near-real-time

 



Purdue Engineering researchers have developed a system that can show what people are seeing in real-world videos, decoded from their fMRI brain scans an advanced new form of  mind-reading technology that could lead to new insights in brain function and to advanced AI systems.

The research builds on previous pioneering research at UC Berkeley’s Gallant Lab, which created a computer program in 2011 that translated fMRI brain-wave patterns into images that loosely mirrored a series of images being viewed.

 

퍼듀 엔지니어링 연구진은 인간이 실제 동영상에서 무엇을 보고 있는지를 뇌 fMRI 촬영자료를 기반으로 파악해내는 시스템을 개발했다. 이는 '독심기술'의 보다 발전된 형태라고 할 수 있으며, 뇌의 기능 및 앞으로의 인공지능 시스템 개발에 새로운 통찰을 제공하여 줄 수 있을 것으로 예상된다. 해당 연구는 이전의 UC 버클리의 갤런트연구소가 수행했던 연구에 기초하고 있는데, 해당 연구소는 2011 fMRI로 얻은 뇌파 패턴을 통하여 인간이 본 이미지를 다시 재현해낼 수 있는 컴퓨터 프로그램을 개발한 바 있다.

 

 

The new system also decodes moving images that subjects see in videos and does it in near-real-time. But the researchers were also able to determine the subjects interpretations of the images they saw for example, interpreting an image as a person or thing and could even reconstruct the original images that the subjects saw.

 

이번에 개발된 시스템은 실험대상자가 시청한 동영상을 거의 실시간으로 파악할 수 있다. 게다가 연구진은 실험대상자가 동영상에서 무엇을 보았는지(인간 또는 사물 등등) 식별해내는 동시에 실험대상자가 보았던 원본 이미지를 다시 재현해내는데 성공했다.

 

 

Deep-learning AI system for watching what the brain sees

심층학습 인공지능을 사용하여 뇌가 무엇을 보는지 관찰하여 보아요

 

Neural-encoding-and-decoding.png

 

Watching in near-real-time what the brain sees. Visual information generated by a video (a) is processed in a cascade from the retina through the thalamus (LGN area) to several levels of the visual cortex (b), detected from fMRI activity patterns (c) and recorded. A powerful deep-learning technique (d) then models this detected cortical visual processing. Called a convolutional neural network (CNN), this model transforms every video frame into multiple layers of features, ranging from orientations and colors (the first visual layer) to high-level object categories (face, bird, etc.) in semantic (meaning) space (the eighth layer). The trained CNN model can then be used to reverse this process, reconstructing the original videos even creating new videos that the CNN model had never watched. (credit: Haiguang Wen et al./Cerebral Cortex)

 

뇌가 보는 것을 거의 실시간으로 관찰하는 기술의 개요도. 동영상(a)에 의해 생성된 시각정보는 망막에서 시상을 거쳐 시각피질(b)까지 도달하며, 이러한 뇌의 활동은 fMRI에 의해 촬영 및 저장된다. 그 다음에는 강력한 심층학습기술(d)을 사용하여 인간 시각피질의 정보처리과정을 모델화한다. 이른바 나선형신경망이라고 불리는 이 모델은 각각의 동영상 프래임을 여러 층의 특징들로 변환시키는데, 1차 시각층은 사물의 방향과 색깔을 담당하며 제8차 시각층은 의미공간 내 고차원 물체 범주(얼굴, 새 등등)을 담당한다. 훈련을 거친 나선형신경망 모델을 다시 거꾸로 돌리면 원본 동영상을 재현해낼 수 있으며, 심지어 나선형신경망 모델이 이전에 보지 못한 새로운 동영상을 생성해낼 수 있다 (자료 제공: 하이광 웬 이외 / 대뇌피질)




논문내용 소개 동영상 

 


The researchers acquired 11.5 hours of fMRI data from each of three women subjects watching 972 video clips, including clips showing people or animals in action and nature scenes.

To decode the  fMRI images, the research pioneered the use of a deep-learning technique called a convolutional neural network (CNN). The trained CNN model was able to accurately decode the fMRI blood-flow data to identify specific image categories. The researchers could compare (in near-real-time) these viewed video images side-by-side with the computers visual interpretation of what the persons brain saw.

The researchers were also able to figure out how certain locations in the visual cortex were associated with specific information a person was seeing.

 

연구진은 세 명의 여성 실험대상자에게 972개의 동영상을 보여주어 실험대상자 각각으로부터 11.5시간 분량의 fMRI 자료를 확보할 수 있었다. 실험대상자가 본 동영상에는 움직이는 사람이나 동물, 자연배경 등이 있었다.

fMRI 촬영자료를 해석하기 위해서 연구진은 나선형신경망이라고 불리는 심층학습기술을 사용했다. 훈련을 받은 나선형신경망 모델은 fMRI로 얻은 혈액흐름 자료를 해석, 인간이 무슨 이미지를 보았는지 식별하는데 성공했다. 연구진은 거의 실시간으로 실제 동영상 속 이미지와 컴퓨터 시스템이 인간의 뇌 활동을 보고 해석해낸 결과를 서로 비교할 수 있었다.

또한 연구진은 시각피질의 어느 부분이 인간이 보고 있는 특정 시각정보와 어떻게 연관되는지 알아낼 수 있었다.

 

 

Decoding how the visual cortex works

시각피질의 작동방법을 알아내 보아요

 

CNNs have been used to recognize faces and objects, and to study how the brain processes static images and other visual stimuli. But the new findings represent the first time CNNs have been used to see how the brain processes videos of natural scenes. This is a step toward decoding the brain while people are trying to make sense of complex and dynamic visual surroundings, said doctoral student Haiguang Wen.

Wen was first author of a paper describing the research, appearing online Oct. 20 in the journal Cerebral Cortex.

 

나선형신경망은 얼굴과 사물의 인식에 사용되고 있으며, 인간의 뇌가 어떤 방식으로 정적인 이미지 및 기타 시각적 자극을 처리하는데 연구하는데에도 종종 쓰인다. 하지만 이번 연구를 통해 나선형신경망을 인간의 뇌가 어떤 방식으로 동영상을 처리하는지 연구하는데 사용될 수 있음에 처음으로 밝혀졌다. "이는 사람들이 복잡하고 역동적인 시각적 외부환경을 이해하려는 과정에서 뇌를 파악하기 위한 또 하나의 도약입니다"라고 박사과정생 하이광 웬이 말했다. 하이광 웬은 해당 연구를 기술한 논문 제1저자이며, 논문 자체는 10 20일 세레브럴코르텍스지 온라인판에 게재되었다.

 

 

Neuroscience is trying to map which parts of the brain are responsible for specific functionality, Wen explained. This is a landmark goal of neuroscience. I think what we report in this paper moves us closer to achieving that goal. Using our technique, you may visualize the specific information represented by any brain location, and screen through all the locations in the brains visual cortex. By doing that, you can see how the brain divides a visual scene into pieces, and re-assembles the pieces into a full understanding of the visual scene.

The researchers also were able to use models trained with data from one human subject to predict and decode the brain activity of a different human subject, a process called cross-subject encoding and decoding. This finding is important because it demonstrates the potential for broad applications of such models to study brain function, including people with visual deficits.

 

"신경과학은 뇌의 어느 부분이 특정 기능을 담당하는지에 대한 지도를 작성하려 시도하고 있습니다"라고 하이광 웬은 말했다. "이는 신경과학의 주요 목표입니다. 제 생각에 이번 논문은 해당 목표를 달성하는데 도움을 줄 것입니다. 저희가 개발한 기술을 사용하면 뇌의 특정 부분이 표현하고 있는 특정 정보를 시각화할 수 있으며, 뇌의 시각피질 전체를 스크리닝 할 수 있습니다. 이렇게 함으로써 저희는 뇌가 어떻게 시각적 장면을 조각들로 분할하는지 그리고 어떻게 다시 재조립을 하여 시각적 장면에 대한 이해를 가능케 하는지 볼 수 있습니다".

또한 연구진은 실험대상자 한 명을 기반으로 훈련시킨 나선형신경망 모델을 사용하여 다른 실험대상자의 뇌 활동을 예측 및 해석하는데 성공했다. 이러한 과정은 "실험대상자 교차 부호화 및 복호화"이라 불린다. 해당 발견이 중요한 이유는 나선형신경망 모델이 뇌 기능의 연구(시각적 장애인 포함)에 폭넓게 사용될 수 있음을 보여주기 때문이다.

 

논문출처:

Haiguang Wen, Junxing Shi, Yizhen Zhang, Kun-Han Lu, Jiayue Cao, Zhongming Liu. Neural Encoding and Decoding with Deep Learning for Dynamic Natural Vision. Cerebral Cortex, 2017; 1 DOI: 10.1093/cercor/bhx268