Компания Microsoft сообщила о создании нейросети под названием VALL-E, которая имитирует любой голос. Для этого ей нужно не более 3 секунд записи оригинального голоса. Нейросеть способна не только имитировать голос, но и даже дублировать эмоциональный фон.
Система включает в себя нейронную языковую модель, в основе которой лежит EnCodec. Она разделает голос человека на компоненты и сопоставляет со своей базой данных. После этого нейросеть использует эти сведения для построения новых фраз.
Microsoft представила языковую модель на GitHub, но пока не публиковала исходный код. Ведь такой инструмент могут использовать мошенники.
самое главное забыли упомянуть на каком языке должен говорить человек. Скорей всего пока только на английском, сомневаюсь что система поддерживает все языки мира, включая стрекочущий язык бушменов :))