Видит слева, а генерирует справа: китайские исследователи лечат «афазию» нейросетей

Видит слева, а генерирует справа: китайские исследователи лечат «афазию» нейросетей

Исследователи из Китая разработали методику под названием UniCorn, которая представляет собой «реабилитационный курс» для мультимодальных моделей. Этот подход направлен на обучение искусственного интеллекта выявлению и исправлению собственных ошибок. В настоящее время многие мультимодальные системы способны не только распознавать изображения, но и создавать их. Однако между этими двумя функциями часто возникает несоответствие. Например, модель может корректно определить, что пляж находится слева, а волны — справа, но при попытке сгенерировать изображение она может перепутать стороны, как будто в зеркальном отражении.

Учёные из Университета науки и технологий Китая (USTC) и ряда других вузов называют этот странный эффект «проводниковой афазией» — аналогией с неврологическим расстройством, при котором человек понимает речь, но не может правильно её воспроизвести. UniCorn призван ликвидировать этот разрыв между пониманием и созданием.

Основная задумка UniCorn проста, почти интуитивна: если модель лучше оценивает изображение, чем генерирует его, то её способность оценивать можно использовать как рычаг, чтобы улучшить способность создавать. Исследователи разделяют одну и ту же мультимодальную модель на три роли, которые работают в едином параметрическом пространстве.

Сначала «Предложитель» формирует множество разнообразных и непростых текстовых описаний. Затем «Решатель» генерирует для каждого запроса целую серию изображений — обычно восемь вариантов с разными параметрами. И наконец, «Судья» выставляет каждому изображению оценку по шкале от 0 до 10 и подробно объясняет своё решение.

Настоящее обучение происходит на втором этапе. Все собранные взаимодействия превращаются в четыре разных формата обучения: модель учится не только генерировать удачные изображения по описанию, но и описывать собственные изображения, а также оценивать пары «текст — картинка» и исправлять слабые варианты, создавая улучшенные. Исследователи подчёркивают: все три компонента критически важны — если учить модель только генерации, её способность понимать неизбежно «проседает».

Файнтюнинг занимает около семи часов на восьми GPU Nvidia H800 — совсем немного для столь заметных улучшений. Весь процесс, что особенно примечательно, обходится без внешних датасетов.

Исследователи также создали новый тест UniCycle: он проверяет, способна ли модель восстановить ключевую информацию из собственных же сгенерированных изображений.

Процедура выглядит как цикл «текст → изображение → текст»: модель сначала создаёт картинку по описанию, затем отвечает на вопросы об этой картинке. После этого внешний проверяющий анализирует, соответствуют ли ответы исходному описанию.

В экспериментах UniCorn тестировали на базе модели BAGEL и прогоняли через шесть разных бенчмарков. Итог — стабильные и убедительные улучшения почти по всем направлениям. Конечно, это не Nano Banana Pro, но скачок производительности получился более чем заметным, что само по себе подтверждает жизнеспособность подхода.

Особенно сильный прогресс наблюдается в задачах, где требуется сложная структурная логика: точный подсчёт объектов, понимание трёхмерных пространственных отношений. UniCorn также уверенно прибавляет там, где нужны обширные знания — культурные, научные, энциклопедические.

На бенчмарке DPG, оценивающем способность создавать сложные сцены с множеством объектов и их параметров, UniCorn даже обходит GPT-4o.

Исследователи признают: у UniCorn остаются слабые места. Модель почти не улучшает результаты в заданиях с отрицаниями — к примеру, в инструкциях вроде «кровать без кота» — и по‑прежнему испытывает трудности с точным подсчётом объектов.

Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник.

Из Postman в код: Connekt и новый взгляд на тестирование API [видео]

На последнем Joker команда Amplicode выступила с тремя докладами! Сегодня был опубликован первый из них «Из Postman в код: Connekt

Fullstack проект на React, Python, Go и Spring: OpenIDE в действии [видео]

В новом видео Михаил Поливаха, Павел Кислов и Александр Шустанов проверяют OpenIDE на прочность в работе с мультиязычным стеком. По

Bloomberg узнал о планах Alibaba провести IPO подразделения по разработке ИИ-чипов

Alibaba Group Holding собирается провести IPO своего дочернего предприятия T-Head, которое занимается разработкой микросхем. Об этом сообщает Bloomberg, ссылаясь на

Более 500 тыс. звонков принял от российских детей ИИ Дед Мороз

Искусственный интеллект, разработанный компанией «Т-технологии», стал настоящим «цифровым волшебником» и за время новогодних праздников обработал 522 тысячи звонков. В основном,

Linum v2 — открытый видео-ИИ, который два брата собрали с нуля за 2 года

Стартап Linum представил две модели text-to-video с открытыми весами, выпущенные под лицензией Apache 2.0. Эти модели способны создавать видеоролики продолжительностью