В сети появилась новая генеративная нейросеть под названием Riffusion. С её помощью можно создавать музыку из текста. Новинка основана на Stable Diffusion версии 1.5.
Идея состоит в том, что Stable Diffusion генерирует так называемые сонограммы или спектрограммы — визуальное представление музыки. Это обычная плоская картинка, где по на оси X показан порядок воспроизведения частот слева направо, а по оси Y — частота звука. Цвет пикселя же задаёт амплитуду звука в каждый момент времени.
Принцип работы прост: Stable Diffusion генерирует картинку и переводит её в спектрограмму, затем данные переводятся в звук с помощью библиотеки для обработки звука Torchaudio. В результате получается музыкальный трек. При этом в текстовом запросе можно указать жанр — рок, джаз и так далее. Даже можно сгенерировать звук набора на клавиатуре.
Попробовать самому новинку можно здесь.
до этого ещё далеко, ну типо статическое изображение одиночное — без проблем можно, не считая пальцы и глаза, а чтобы эти изображения были взаимосвязаны друг с другом...типо один кадр продолжение предыдущего (например, персонаж повернул голову) пока нейронка такое совсем не может и , я думаю, что не скоро сможет
Согласен, втирает какую-то дичь...
P.S. Против Metallica ничего не имею, но не только ж ее слушать...
вот это уже интересно, но было бы круто если нейросеть научилась создавать фильмы, пускай даже они будут короткими из других нарезок киновселеной