출처(영문): https://deepmind.com/blog/wavenet-generative-model-raw-audio/



구글이 인수한 딥마인드에서 인공신경망을 사용하여 음성합성 프로그램 WaveNet을 개발했다고 합니다.



BlogPost-Fig2-Anim-160908-r01.gif


<그림 1> WaveNet의 인공신경망 작동 개요



WaveNet과 다른 음성합성 프로그램이 내는 목소리를 실험자들에게 들려준 결과

WaveNet의 평가가 월등히 좋았습니다.




mos2.width-1500.png

<그림 2> 실제 인간 목소리, WaveNet과 타 음성합성 프로그램들 간의 비교(영어와 중국 만다린어)





다음은 WaveNet으로 합성한 영어와 중국 만다린어 목소리입니다.



영어:




중국 만다린어:





WaveNet은 똑같은 문장을 다양한 목소리로 발음할 수 있습니다.









또한 WaveNet한테 음악을 들려주면 자신만의 음악을 생성해냅니다.











딥바인드는 WaveNet이 음악 생성기술과 오디오 모델링 기술에 큰 도움을 줄 것으로 기대하고 있습니다.


16kHz 대역의 오디오를 심층신경망으로 직접 생성해낼 수 있다는 것은 매우 놀라운 일이 아닐 수 없습니다.


더 구체적인 정보를 얻고 싶으시다면 https://drive.google.com/file/d/0B3cxcnOkPx9AeWpLVXhkTDJINDQ/view를 누르시기 바랍니다.