
Стартап Linum представил две модели text-to-video с открытыми весами, выпущенные под лицензией Apache 2.0. Эти модели способны создавать видеоролики продолжительностью от 2 до 5 секунд с разрешением до 720p и содержат 2 миллиарда параметров. Их можно использовать на локальных видеокартах с объемом памяти от 20 ГБ. Веса моделей доступны на платформе Hugging Face. За разработкой стоит команда талантливых специалистов.
Братья Сахил и Ману Чопра из Сан-Франциско, которые являются выпускниками Стэнфорда и UC Berkeley, успешно прошли акселератор Y Combinator в 2023 году. Их проект Linum начал развиваться осенью 2022 года, когда Stable Diffusion произвела настоящий фурор в мире генеративного искусственного интеллекта. В январе 2024 года они представили первую версию своего продукта, которая оказалась 180p GIF-ботом.
На основе Stable Diffusion XL разработчики вскоре осознали, что создание надстройки над существующей моделью — это не самый эффективный путь. Модель image-VAE не способна учитывать временные связи между кадрами, и без оригинальных обучающих данных обеспечить плавный переход от изображений к видео оказывается сложной задачей.
Для версии 2 команда решила создать полный рабочий процесс с нуля: они использовали T5 для кодирования текстовой информации.
В рамках своего проекта, VAE от Wan 2.1 был разработан для сжатия видео, а также был создан собственный DiT-бэкбон, который обучался с использованием метода flow matching. Основное время за два года работы было потрачено на разработку пайплайнов для фильтрации данных. Братья вручную отмечали эстетические характеристики видео, а затем дообучали VLM для автоматической фильтрации огромного объёма видеоматериалов.
Модель демонстрирует наилучшие результаты в создании мультяшных стилей, сцен, связанных с едой и природой, а также в простых анимациях персонажей. Тем не менее, она сталкивается с трудностями в симуляции сложной физики, быстром движении и текстовой генерации. Для создания 5-секундного видео в 720p требуется около 15 минут на графическом процессоре H100.
Основная цель Linum
Основатели проекта стремятся упростить доступ к анимации. Они отмечают, что создание инди-мультфильма, подобного «Потоку», требует инвестиций в размере 3-4 миллионов долларов, и намерены значительно уменьшить эти затраты. В планах на ближайшее время — провести пост-тренинг для повышения качества физики, усовершенствовать процесс генерации через дистилляцию, добавить звуковое сопровождение и расширить возможности модификаций.
К сожалению, текст, который вы предоставили, не содержит информации, которую можно переработать. Пожалуйста, предоставьте полный текст новости, и я с радостью помогу вам с рерайтом!