Компания Lightricks открыла исходный код модели видеоанализа на основе ИИ LTX-2

Компания Lightricks открыла исходный код модели видеоанализа на основе ИИ LTX-2

Израильская компания Lightricks анонсировала открытие исходного кода своей модели LTX-2, обладающей 19 миллиардами параметров. Данная система предназначена для генерации аудио-видеоконтента, который синхронизирован с текстовыми описаниями, и, по заявлению разработчиков, демонстрирует более высокую скорость работы по сравнению с аналогичными решениями на рынке.

Согласно техническому отчету, модель способна создавать до 20 секунд видео с синхронизированным стереозвуком на основе одного текстового запроса. В процессе генерации учитываются такие элементы, как речь, синхронизированная с текстом, фоновые звуки, звуковые эффекты и музыка, соответствующая каждой сцене. Полная версия LTX-2 поддерживает разрешение 4K и может выводить изображение с частотой до 50 кадров в секунду, как сообщает компания Lightricks.

Исследователи утверждают, что существующие подходы к генерации аудиовизуального контента принципиально ошибочны. Многие системы работают последовательно — сначала генерируется видео, затем добавляется звук, или наоборот. Эти разрозненные конвейеры не могут уловить истинное совместное распределение обеих модальностей. Хотя синхронизация губ в основном зависит от звука, акустическая среда формируется визуальным контекстом. Только единая модель может справиться с этими двунаправленными зависимостями.

Почему асимметричная архитектура важна для создания аудио-видеоконтента

LTX-2 работает на основе асимметричного двухпотокового трансформатора с общим количеством параметров 19 миллиардов. Видеопоток получает 14 миллиардов параметров — значительно больше, чем аудиопоток с его 5 миллиардами. По словам исследователей, такое разделение отражает различную плотность информации в каждом из каналов.

Оба потока используют отдельные вариационные автокодировщики для своих модальностей. Такое разделение позволяет использовать кодирование положения, специфичное для каждой модальности: трехмерные встраивания вращательного положения (RoPE) для пространственно-временной структуры видео и одномерные встраивания для чисто временного измерения звука. Двунаправленные слои перекрестного внимания соединяют оба потока, точно связывая визуальные события, такие как падение объекта на землю, с соответствующими звуками.

Для распознавания текста LTX-2 использует Gemma3-12B в качестве многоязычного кодировщика. Вместо того чтобы обращаться только к последнему слою языковой модели, система задействует все слои декодера и объединяет их информацию. Модель также использует мыслительные токены — дополнительные заполнители во входной последовательности, которые дают ей больше места для обработки сложных запросов до начала генерации.

Увеличение скорости выводит LTX-2 в лидеры среди конкурентов

Согласно результатам бенчмарков, LTX-2 демонстрирует значительные преимущества в скорости обработки данных. На графическом процессоре Nvidia H100 модели требуется 1,22 секунды на шаг для 121 кадра при разрешении 720p. Аналогичный Wan2.2-14B, генерирующий только видео без звука, затрачивает 22,30 секунды. Таким образом, по данным Lightricks, LTX-2 работает в 18 раз быстрее.

Максимальная продолжительность видео в 20 секунд также превосходит показатели конкурентов: Veo 3 от Google достигает 12 секунд, Sora 2 от OpenAI — 16 секунд, а модель Ovi с открытым исходным кодом от Character.AI — 10 секунд. В исследованиях предпочтений человека LTX-2 значительно превосходит альтернативы с открытым исходным кодом, такие как Ovi, и показывает результаты, сопоставимые с проприетарными моделями, такими как Veo 3 и Sora 2.

Однако исследователи признают ряд ограничений. Качество варьируется в зависимости от языка — синтез речи может быть менее точным для языков или диалектов, которые недостаточно представлены. В сценах с несколькими говорящими модель иногда присваивает произнесённый текст не тем персонажам. В фрагментах длительностью более 20 секунд могут наблюдаться временной сдвиг и ухудшение синхронизации.

Выпуск открытого исходного кода создает проблемы при использовании закрытого API

Компания Lightricks объясняет свое решение сделать модель с открытым исходным кодом критикой существующего рынка.

«Я просто не понимаю, как этого можно достичь с помощью закрытых API», — говорит основатель Lightricks Зеев Фарбман в анонсирующем видео о перспективах современных моделей генерации видео. Индустрия застряла в тупике: с одной стороны, можно добиться впечатляющих результатов, но с другой — до уровня контроля, необходимого профессионалам, еще далеко.

«Я просто не понимаю, как этого можно достичь с помощью закрытых API», — говорит основатель Lightricks Зеев Фарбман в анонсирующем видео о перспективах современных моделей генерации видео. Индустрия застряла в тупике: с одной стороны, можно добиться впечатляющих результатов, но с другой — до уровня контроля, необходимого профессионалам, еще далеко.

Компания также занимает четко выраженную этическую позицию.

«Искусственный интеллект может расширить возможности человеческой креативности и интеллекта. Меня беспокоит то, что кто-то другой присвоит себе мои возможности», — продолжает Фарбман.

«Искусственный интеллект может расширить возможности человеческой креативности и интеллекта. Меня беспокоит то, что кто-то другой присвоит себе мои возможности», — продолжает Фарбман.

Цель состоит в том, чтобы запускать ИИ на собственном оборудовании, на собственных условиях, и принимать этические решения в сотрудничестве с широким сообществом разработчиков, а не передавать их на аутсорсинг избранной группе с собственными интересами.

Помимо весов модели, релиз включает в себя упрощенную версию, несколько адаптеров LoRA и модульную структуру обучения с поддержкой нескольких графических процессоров. Модель оптимизирована для экосистемы Nvidia RTX и работает как на потребительских графических процессорах, таких как RTX 5090, так и на корпоративных системах. Веса модели и код доступны на GitHub и Hugging Face , а демо-версия доступна на контент-платформе компании после бесплатной регистрации.

Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник

Из Postman в код: Connekt и новый взгляд на тестирование API [видео]

На последнем Joker команда Amplicode выступила с тремя докладами! Сегодня был опубликован первый из них «Из Postman в код: Connekt

Fullstack проект на React, Python, Go и Spring: OpenIDE в действии [видео]

В новом видео Михаил Поливаха, Павел Кислов и Александр Шустанов проверяют OpenIDE на прочность в работе с мультиязычным стеком. По

Bloomberg узнал о планах Alibaba провести IPO подразделения по разработке ИИ-чипов

Alibaba Group Holding собирается провести IPO своего дочернего предприятия T-Head, которое занимается разработкой микросхем. Об этом сообщает Bloomberg, ссылаясь на

Более 500 тыс. звонков принял от российских детей ИИ Дед Мороз

Искусственный интеллект, разработанный компанией «Т-технологии», стал настоящим «цифровым волшебником» и за время новогодних праздников обработал 522 тысячи звонков. В основном,

Linum v2 — открытый видео-ИИ, который два брата собрали с нуля за 2 года

Стартап Linum представил две модели text-to-video с открытыми весами, выпущенные под лицензией Apache 2.0. Эти модели способны создавать видеоролики продолжительностью