Google рассказала о системе искусственного интеллекта Imagen Video, которая генерирует видео высокого разрешения — 1280×768 пикселей, 24 кадра в секунду, по текстовому описанию.
Imagen Video способна работать в заданной стилистике, имитируя, к примеру, манеры известных художников, создавать вращающиеся 3D-объекты с сохранением их формы или изображать текст в различных анимационных жанрах.
Основу технологии составил «каскад» моделей, которые на основе текстового описания создают прототип ролика, который далее в несколько шагов преобразуется в видео высокого разрешения с более высокой частотой кадров. Конечное видео имеет длительность 5,3 секунды.
Система Imagen Video была обучена на общедоступной базе LAION-400M, которая содержит 14 миллионов пар видео-текст и 60 миллионов пар картинка-текст.
Источник: 3dnews.ru