Linum v2 — открытый видео-ИИ, который два брата собрали с нуля за 2 года

Linum v2 — открытый видео-ИИ, который два брата собрали с нуля за 2 года

Стартап Linum представил две модели text-to-video с открытыми весами, выпущенные под лицензией Apache 2.0. Эти модели способны создавать видеоролики продолжительностью от 2 до 5 секунд с разрешением до 720p и содержат 2 миллиарда параметров. Их можно использовать на локальных видеокартах с объемом памяти от 20 ГБ. Веса моделей доступны на платформе Hugging Face. За разработкой стоит команда талантливых специалистов.

Братья Сахил и Ману Чопра из Сан-Франциско, которые являются выпускниками Стэнфорда и UC Berkeley, успешно прошли акселератор Y Combinator в 2023 году. Их проект Linum начал развиваться осенью 2022 года, когда Stable Diffusion произвела настоящий фурор в мире генеративного искусственного интеллекта. В январе 2024 года они представили первую версию своего продукта, которая оказалась 180p GIF-ботом.

На основе Stable Diffusion XL разработчики вскоре осознали, что создание надстройки над существующей моделью — это не самый эффективный путь. Модель image-VAE не способна учитывать временные связи между кадрами, и без оригинальных обучающих данных обеспечить плавный переход от изображений к видео оказывается сложной задачей.

Для версии 2 команда решила создать полный рабочий процесс с нуля: они использовали T5 для кодирования текстовой информации.

В рамках своего проекта, VAE от Wan 2.1 был разработан для сжатия видео, а также был создан собственный DiT-бэкбон, который обучался с использованием метода flow matching. Основное время за два года работы было потрачено на разработку пайплайнов для фильтрации данных. Братья вручную отмечали эстетические характеристики видео, а затем дообучали VLM для автоматической фильтрации огромного объёма видеоматериалов.

Модель демонстрирует наилучшие результаты в создании мультяшных стилей, сцен, связанных с едой и природой, а также в простых анимациях персонажей. Тем не менее, она сталкивается с трудностями в симуляции сложной физики, быстром движении и текстовой генерации. Для создания 5-секундного видео в 720p требуется около 15 минут на графическом процессоре H100.

Основная цель Linum

Основатели проекта стремятся упростить доступ к анимации. Они отмечают, что создание инди-мультфильма, подобного «Потоку», требует инвестиций в размере 3-4 миллионов долларов, и намерены значительно уменьшить эти затраты. В планах на ближайшее время — провести пост-тренинг для повышения качества физики, усовершенствовать процесс генерации через дистилляцию, добавить звуковое сопровождение и расширить возможности модификаций.

К сожалению, текст, который вы предоставили, не содержит информации, которую можно переработать. Пожалуйста, предоставьте полный текст новости, и я с радостью помогу вам с рерайтом!

Из Postman в код: Connekt и новый взгляд на тестирование API [видео]

На последнем Joker команда Amplicode выступила с тремя докладами! Сегодня был опубликован первый из них «Из Postman в код: Connekt

Fullstack проект на React, Python, Go и Spring: OpenIDE в действии [видео]

В новом видео Михаил Поливаха, Павел Кислов и Александр Шустанов проверяют OpenIDE на прочность в работе с мультиязычным стеком. По

Bloomberg узнал о планах Alibaba провести IPO подразделения по разработке ИИ-чипов

Alibaba Group Holding собирается провести IPO своего дочернего предприятия T-Head, которое занимается разработкой микросхем. Об этом сообщает Bloomberg, ссылаясь на

Более 500 тыс. звонков принял от российских детей ИИ Дед Мороз

Искусственный интеллект, разработанный компанией «Т-технологии», стал настоящим «цифровым волшебником» и за время новогодних праздников обработал 522 тысячи звонков. В основном,

В Госдуме предложили легализовать использование ИИ в сфере образования

В России необходимо частично узаконить применение искусственного интеллекта в сфере образования. С таким предложением к министру науки и высшего образования