Интернет Веб-сервисы Цифровизация ИТ в банках Техника

22 Ноября 2023 14:31 22 Ноя 2023 14:31 |

Создана первая российская нейросеть, умеющая генерировать видеоролики

Заработала первая в России нейросеть для генерации видеороликов. Ее создал Сбербанк, и аналогов у нее в стране нет. За рубежом подобных сервисов много – есть и американские, и китайские решения, как платные, так и бесплатные.

Вместо изображения – видеоролик

Сбербанк сообщил CNews о запуске своей новейшей нейросети Kandinsky Video, способной создавать небольшие видеоролики, основываясь на заданном пользователем текстовом описании. По словам разработчиков, это первый в России сервис подобного рода.

Создать при помощи Kandinsky Video полноценный многоминутный ролик нельзя – максимальная продолжительность одного клипа составляет всего 8 секунд. Кроме того, есть ограничение по частоте кадров в секунду – не более 30.

Сбербанк не сообщает, чем вызваны эти ограничения, и есть ли у него планы по отказу от них. На соответствующие вопросы редакции CNews представители банка не ответили.

Окно управления Kandinsky Video в сервисе Fusion Brain

Ждать от Kandinsky Video, что она создаст ролик высоком разрешении, тоже не стоит – ни о каких HD (1280х720 пикселей), Full HD (1920x1080) и тем более 4К (3840х2160) речи здесь нет. В ответ на запрос пользователя нейросеть, если пользоваться ею через платформу Сбербанка Fusion Brain, выдаст ролик в форматах лишь 512х512, 384х640 или 640х384 точки, что соответствует пропорциям 1:1, 9:16 и 16:9

Что внутри нейросети

По словам разработчиков, в основе Kandinsky Video находятся два базовых блока. Задача первого – это генерация ключевых кадров, из которых нейросеть в дальнейшем сложит структуру сюжета ролика.

Запрос «Детальный вид лица киборга, высокая детализация, 8K»

Второй блок занимается генерацией так называемых «интерполяционных кадров», которые «позволяют достичь плавности движений в финальном видео», сообщили CNews в Сбербанке. Чтобы все работало корректно, Kandinsky Video функционирует в паре с новейшей нейросетью Kandinsky 3.0, запущенной одновременно с Kandinsky Video и служащей, как и первые два ее поколения, для генерации изображений по текстовому описанию.

Результат работы нейросети

Kandinsky 3.0 обучена создавать более фотореалистичные изображения в сравнении с Kandinsky 2.0. Также в списке ее возможностей отныне есть функция создания полноценных художественных картины и артов со скетчами.

Не анимация, а видео

Разработчики Kandinsky Video делают отдельный акцент на том, что создаваемые этой нейросетью ролики ни в коем случае нельзя путать с анимационным видео. Они подчеркивают, что разница между ними кардинальная.

Так, каждое творение Kandinsky Video – это непрерывная сцена, на которой в движении находятся как объект на переднем плане, так и фон позади него. В анимационных же видеороликах динамика достигается иным способом – за счет моделирования пролета камеры относительно статичной сцены. К слову, Kandinsky Video умеет генерировать и такую анимацию.

Когда есть альтернатива

На момент выхода материала у Сбербанка было две нейросети, умеющих генерировать видеоролики. Конкуренцию Kandinsky Video в экосистеме банка составляет упомянутая Kandinsky 3.0, но ее возможности в этом плане более ограничены, хотя в чем-то она опережает Kandinsky Video.

В Сбербанке сообщили CNews, что в Kandinsky 3.0 можно создавать ролики в режиме анимации по текстовому описанию. Один запрос – это один ролик длительностью до четырех секунд в разрешении 640х640 пикселей и частотой 24 кадра в секунду. Эффект анимации пользователь должен выбрать самостоятельно до начала процесса генерации. Синтез одной секунды такого видео длится в среднем около 20 секунд.

Фото: Официальный интернет-портал Администрации Томской области

Аппаратная составляющая всех нейросетей - это мощные суперкомпьютеры

В России прямых конкурентов у Kandinsky Video пока нет, но их довольно много за рубежом. Генеративные сети, способные создавать видеоролики, стали массово появляться в 2022 г. – например, с мая 2022 г. работает китайский проект CogVideo с открытым кодом. На момент запуска создаваемые в CogVideo ролики имели частоту всего-навсего 8 кадров в секунду.

Виктор Урусов, Скала^р: Мы и до 2022 года успешно конкурировали с западными ПАК

Цифровизация

Свои нейросети по созданию видео есть и у крупных игроков мировой ИТ-сферы. Например, в распоряжении Google есть проект Imagen Video, которой по силам генерировать видео в разрешении до 1280х768 точек и частоте 24 кадра в секунду. Но их длина не превышает трех секунд.

Также у Google есть проект Dreamix – его она показала в феврале 2023 г., и он служит не для генерации новых, а для редактирования уже существующих роликов. Например, нейросеть способна заменить один объект в кадре, например, собаку, на совершенно другой – на кошку или другое животное.

Приложения для слежки за чужим смартфоном, за которые вам ничего не будет

Георгий Дорофеев

Подписаться на новости

Короткая ссылка

Создана первая российская нейросеть, умеющая генерировать видеоролики

Вместо изображения – видеоролик

Что внутри нейросети

Не анимация, а видео

Когда есть альтернатива

Другие материалы рубрики

Конференции

CNews FORUM 2025: Информационные технологии завтра

CNews Awards 2025

Электронный документооборот и управление контентом

CNewsMarket

Colocation

IP-телефония

Email-рассылки

CRM

Техника

Лучшие телевизоры с OLED-экраном стоимостью до 150 000 рублей: хиты продаж

Лучшие ноутбуки с большим экраном для учебы и работы: выбор ZOOM

Лучшие бесплатные приложения для чтения на смартфоне: выбор ZOOM

Наука

С помощью света удалось создать уникальные кристаллы времени, их можно увидеть невооруженным глазом

Красные точки, которые назвали разрушителями Вселенной — замаскированные черные дыры?

Течет ли время на самом деле или это всего лишь иллюзия?

С новым кодом:
как будет работать
универсальный QR-код для оплаты

Российским ритейлерам
стоило бы поучиться у коллег из Китая

Российским ритейлерам
стоило бы поучиться у коллег из Китая

С новым кодом:
как будет работать
универсальный QR-код для оплаты

Первая карта заводов компьютерной техники в России

Обзор: Платформы виртуализации 2025

Создана первая российская нейросеть, умеющая генерировать видеоролики

Вместо изображения – видеоролик

Что внутри нейросети

Не анимация, а видео

Когда есть альтернатива

Другие материалы рубрики

Конференции

CNews FORUM 2025: Информационные технологии завтра

CNews Awards 2025

Электронный документооборот и управление контентом

CNewsMarket

Colocation

IP-телефония

Email-рассылки

CRM

Техника

Лучшие телевизоры с OLED-экраном стоимостью до 150 000 рублей: хиты продаж

Лучшие ноутбуки с большим экраном для учебы и работы: выбор ZOOM

Лучшие бесплатные приложения для чтения на смартфоне: выбор ZOOM

Наука

С помощью света удалось создать уникальные кристаллы времени, их можно увидеть невооруженным глазом

Красные точки, которые назвали разрушителями Вселенной — замаскированные черные дыры?

Течет ли время на самом деле или это всего лишь иллюзия?

С новым кодом: как будет работать универсальный QR-код для оплаты

Российским ритейлерамстоило бы поучиться у коллег из Китая

Российским ритейлерамстоило бы поучиться у коллег из Китая

С новым кодом: как будет работать универсальный QR-код для оплаты

Первая карта заводов компьютерной техники в России

Обзор: Платформы виртуализации 2025

С новым кодом:
как будет работать
универсальный QR-код для оплаты

Российским ритейлерам
стоило бы поучиться у коллег из Китая

Российским ритейлерам
стоило бы поучиться у коллег из Китая

С новым кодом:
как будет работать
универсальный QR-код для оплаты