Claude Opus 4.5 набрал 92% на медицинском бенчмарке Стэнфорда — и получил доступ к данным пациентов

Claude Opus 4.5 набрал 92% на медицинском бенчмарке Стэнфорда — и получил доступ к данным пациентов

Компания Anthropic улучшила медицинские функции своей флагманской модели Claude, версия Opus 4.5, которая продемонстрировала результат 92,3% на агентском бенчмарке MedAgentBench, разработанном Стэнфордом. В связи с этим, Anthropic решила предоставить модели доступ к реальным медицинским данным пользователей. Это решение является продолжением запуска Claude for Life Sciences в октябре, однако теперь акцент сделан на клинические применения и взаимодействие с обычными пациентами.

MedAgentBench представляет собой симуляцию реальных задач, с которыми сталкиваются врачи, включая работу с электронными медицинскими картами, назначение анализов и выписку рецептов. Ранее лучшие модели показывали результаты на уровне около 70%. Однако Opus 4.5 с расширенными функциональными возможностями достигла почти максимального результата. В то же время, на другом бенчмарке, MedCalc, который оценивает точность медицинских расчетов, модель показала более скромный результат — 61,3%, что значительно выше 21,8% у Sonnet 3.5. Anthropic также отметила, что внутренние тесты продемонстрировали снижение числа ошибок в выводах модели.

Подписчики Claude Pro и Max в США теперь могут подключить к модели свои данные о здоровье. Запущены интеграции с HealthEx (агрегатор медкарт) и Function (сервис расширенного тестирования), на этой неделе в бета-версии появятся Apple Health и Android Health Connect через мобильные приложения. Claude сможет читать результаты анализов, объяснять их простым языком, находить паттерны в фитнес-метриках и формулировать вопросы для визита к врачу.

Anthropic подчеркивает, что интеграции «приватны по дизайну»: пользователь сам выбирает, какие данные передавать, и может отключить доступ в любой момент. Данные не используются для обучения моделей. Claude будет добавлять дисклеймеры и направлять к врачам за персональными рекомендациями — по крайней мере, так обещает компания.

Это уже второй за три месяца крупный шаг Anthropic в медицину. В октябре компания запустила инструменты для ученых, теперь добавила решения для страховщиков, клиник и пациентов. Среди партнеров — Sanofi, Novo Nordisk, Banner Health. Интеграции с персональными данными пока работают только в США, но направление очевидно: Anthropic хочет, чтобы Claude стал посредником между человеком и его здоровьем.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.

Из Postman в код: Connekt и новый взгляд на тестирование API [видео]

На последнем Joker команда Amplicode выступила с тремя докладами! Сегодня был опубликован первый из них «Из Postman в код: Connekt

Fullstack проект на React, Python, Go и Spring: OpenIDE в действии [видео]

В новом видео Михаил Поливаха, Павел Кислов и Александр Шустанов проверяют OpenIDE на прочность в работе с мультиязычным стеком. По

Bloomberg узнал о планах Alibaba провести IPO подразделения по разработке ИИ-чипов

Alibaba Group Holding собирается провести IPO своего дочернего предприятия T-Head, которое занимается разработкой микросхем. Об этом сообщает Bloomberg, ссылаясь на

Более 500 тыс. звонков принял от российских детей ИИ Дед Мороз

Искусственный интеллект, разработанный компанией «Т-технологии», стал настоящим «цифровым волшебником» и за время новогодних праздников обработал 522 тысячи звонков. В основном,

Linum v2 — открытый видео-ИИ, который два брата собрали с нуля за 2 года

Стартап Linum представил две модели text-to-video с открытыми весами, выпущенные под лицензией Apache 2.0. Эти модели способны создавать видеоролики продолжительностью