Нейросеть Heygen переводит русские видеомемы на разные языки. Актеры дубляжа больше не нужны?

Нейросети продолжают «лишать работы» все большее количество профессий. В этот раз завирусилась нейросеть от Heygen, которая переводит текст ролика, а затем и озвучивает его голосом героя видео, имитируя при этом движение губ. Разумеется, в интернете стали появляться переозвученные ролики-мемы.

Heygen Labs работает по следующему принципу. После загрузки видео сервис с помощью одной нейросети «слушает» видео и переводит голоса в текст. Затем специальный модуль переводит текст на другой язык (сейчас доступно восемь языков), а после еще одна подпрограмма озвучивает всё это, сохраняя тембр, акцент и прочие особенности оригинального голоса. Наконец, последняя «нейронка» занимается «липсингом» — делает так, чтобы движения губ в кадре соответствовали произносимым словам.

Вы уже пользовались нейросетями?

Результаты

Инструкция по работе с Heygen Labs

Итак, вот короткая инструкция по работе с Heygen Labs:

  1. Зарегистрируйтесь в сервисе;
  2. Подготовьте видео разрешением от 360х360 до 4096х4096 пикселей и длительностью от 30 до 59 секунд. За больший хронометраж придется платить. Другие требования можно увидеть, наведя курсор на надпись Requirements. Бесплатно можно смонтировать один такой ролик.
  3. Загрузите подготовленное видео, «бросив его» на панель Drop to Upload или нажав на ту же панель и выбрав видео через «Проводник».
  4. Выберите язык, на который вы хотите перевести видео и нажмите «Submit».
  5. Дождитесь окончания обработки и скачайте файл.

Важно! На момент написания статьи популярность сервиса сыграла с ним злую шутку — оборудование владельцев не справляется, а количество видео в очереди варьируется от 25 до 150 тысяч в зависимости от времени суток.

Через некоторое время вы можете увидеть надписи Queuing и, чуть ниже, Upgrade to skip the line. Таким образом сервис говорит нам о том, что мы «застряли» в очереди, которую можно пропустить, оплатив платный тариф.

Мы не зря упомянули про требования — одна из наших обработок завершилась неудачно. Программа выдала следующую ошибку: Face angle is too large in one or more frames of your video. Please try a video with faces looking more straight at the camera. (Credits refunded). На некоторых кадрах лицо располагалось под слишком большим углом, и программа не смогла «приделать» ему маску. Обращайте на это внимание при подборе роликов.

Мемные примеры работы нейросети

Теперь к результатам работы Heygen Lab — начнем с легендарной Натальи «Морская пехота». Женщина в видео заговорила на немецком.

А вот как программа справляется с нюансами русского языка. Перевод на английский мема «Мы не знаем, что это такое, если бы мы знали, что это такое…» вышел даже более забавным, чем оригинал.

Не обошлось без «ульты» русского мемного интернета — идущему к реке. Может, на это видео наткнется Кристофер Нолан (Christopher Nolan) и снимет второй «Интерстеллар» (Interstellar)?

Конечно же, мимо уважаемого Евгения Понасенкова тоже не пройти. На немецком «Переиграю и уничтожу» звучит даже убедительнее.

Переходим к сериальной классике. Интересно, смогут ли иностранцы оценить всю прелесть котлеток с пюрешкой?

Раз уж заговорили о кинематографе, обойти легендарный монолог «В чем сила брат» было невозможно.

Хорошо нейросеть справляется не только с переводом, но и с сохранением голоса героев видео. Уверены, даже не видя картинку, вы тут же угадаете, что речь идет про борщ с капусткой, но не красный.

Нейросеть способна подстраиваться под действительно широкий диапазон голосов. Вот, к примеру, Никита Михалков.

А вот известный многим Дмитрий «Гоблин» Пучков рассказывает анекдот, но уже зарубежной аудитории.

Нейросеть не может одновременно озвучить два разных голоса в видео, а также не всегда справляется с лицами, если свет падает под острым углом.

Да и видео, на которых есть посторонние шумы или качество микрофона оставляет желать лучшего, нейросеть хоть и обрабатывает, но вытягивает с трудом.

Но все же нельзя не признать, что передать тембр и особенности голоса у ИИ выходит неплохо. Вот пример озвучки на польском, языку явно не хватает разнообразия ненормативной лексики.

Про этот мем уже, наверное, многие забыли, но знаменитый в нулевых пацан, который шел к успеху, тоже заговорил на английском.

Про знаменитые диалоги из мультфильмов творцы тоже не забыли. Правда, быструю речь в мультфильме «Ух ты, говорящая рыба!» нейросеть переозвучила не лучшим образом.

А как же мелодично звучат русские мемы на французском! Тут впору вспоминать недавний тренд на различных персонажей, говорящих с соответствующим акцентом «Я в Париже».

Как можно заметить, при определенном освещении видна маска губ — у некоторых людей на уровне носа заметна черта, разграничивающая оригинальный видеоряд и наложенное изображение. Также нейросеть пока не справляется с быстрыми движениями — при рывках головой маска не поспевает за героем видео и начинает немного дергаться.

Что касается озвучки, здесь все зависит от качества звука в оригинальном видео. Если дорожка в исходнике была качественной, нейросеть отлично справляется, сохраняет оригинальный говор и стиль речи.

* * *

На текущий момент дикторы и актеры озвучки еще могут тягаться с технологией. «Липсинг» не справляется с динамичными объектами, а искусственность проскакивает в синтезированном голосе. Но все равно это невероятный результат для технологии, которая, по сути, развивается всего несколько лет. Как вы думаете, что дальше придумают разработчики нейросетей?

Актеры дубляжа в опасности?

Результаты
+2
Комментарии 19