СПРАВОЧНИК
ЛЕКАРСТВЕННЫХ СРЕДСТВ
Вход для специалистов
Неверный логин
или пароль

OpenAI представила HealthBench – новый набор данных для оценки ИИ в медицине

OpenAI представила HealthBench – новый набор данных для оценки ИИ в медицине
Искусственный интеллект на службе у медицины // Источник: Freepik

OpenAI представила HealthBench – масштабный набор данных, предназначенный для оценки того, насколько эффективно искусственный интеллект справляется с медицинскими вопросами. Это первый крупный независимый проект компании в области здравоохранения, как сообщает STAT News.

Датасет включает 5000 реалистичных медицинских диалогов, снабжённых подробными инструментами для оценки ответов ИИ. Над его созданием работали 262 врача из 60 стран, предложившие свыше 57 000 уникальных критериев для анализа корректности и качества ответов.

«Наша миссия в OpenAI – сделать так, чтобы искусственный общий интеллект (AGI, artificial general intelligence) был полезен человечеству», – заявил Каран Сингхал, руководитель команды по медицинскому ИИ.

«Один из путей к этому – создавать и внедрять технологии, а другой – обеспечивать, чтобы такие важные области, как здравоохранение, получали безопасные и надёжные решения».

HealthBench был разработан для решения одной из ключевых задач: объективного и масштабируемого сравнения различных ИИ-моделей. По словам Раджа Ратвани, исследователя в MedStar Health, «OpenAI предоставила масштабируемый инструмент от известной компании, что облегчит его использование по всему миру».

Все примеры в базе основаны на синтезированных сценариях, созданных врачами. Это позволило соблюсти баланс между реалистичностью и необходимыми мерами по защите конфиденциальности. В датасет также включена специальная подборка из 1000 сложных сценариев, в которых модели ИИ чаще всего ошибались. OpenAI надеется, что эти случаи станут ориентиром для улучшения моделей в ближайшие месяцы.

Компания протестировала как собственные модели, так и решения от Google, Meta, Anthropic и xAI. Как отмечает STAT News, наилучшие результаты продемонстрировала модель o3 от OpenAI – особенно по качеству коммуникации. Однако во многих случаях ИИ по-прежнему слабо справлялся с пониманием контекста и полнотой ответов.

Некоторые эксперты выразили обеспокоенность тем, что OpenAI самостоятельно оценивает свои модели. Кроме того, часть оценок выполнялась с помощью другого ИИ, что может приводить к пропущенным ошибкам. «Это может скрыть ошибки, общие для модели и оценщика», – отметил Гириш Надкарни, руководитель направления ИИ в здравоохранении в Иканской школе медицины при горбольнице Маунт-Синай.

Эксперты подчёркивают: HealthBench действительно повышает качество оценки языковых моделей в медицине, но для заявлений о безопасности необходим более тщательный анализ подгрупп и участие специалистов из разных стран и демографических групп.

Источник

dislike
1
Вас может заинтересовать