Microsoft представила нейросеть VALL-E, которая может скопировать голос любого человека

Компания Microsoft сообщила о создании нейросети под названием VALL-E, которая имитирует любой голос. Для этого ей нужно не более 3 секунд записи оригинального голоса. Нейросеть способна не только имитировать голос, но и даже дублировать эмоциональный фон.

Так работает нейросеть VALL-E

Система включает в себя нейронную языковую модель, в основе которой лежит EnCodec. Она разделает голос человека на компоненты и сопоставляет со своей базой данных. После этого нейросеть использует эти сведения для построения новых фраз.

Microsoft представила языковую модель на GitHub, но пока не публиковала исходный код. Ведь такой инструмент могут использовать мошенники.

🐼 Работа над «Кунг-фу пандой 5» уже началась — сообщает инсайдер Дэниел Рихтман
+1
Комментарии 9