Новая модель Google, получившая самый высокий балл за ИИ в истории, только что прошла проверку на вопросы экзамена на получение медицинской лицензии в США!
А в таких задачах, как научный здравый смысл, понимание, способность к поиску и рассуждению, он напрямую соответствует уровню врачей-людей. В некоторых клинических представлениях вопросов и ответов самая высокая производительность превышает производительность исходной модели SOTA более чем на 17%.
Посмотрев сравнение Med-PaLM и врачей-людей, большинство пользователей сети сказали, что они уже с нетерпением ждут назначения врачей ИИ.
Из-за специализированного характера здравоохранения сегодняшние модели ИИ в значительной степени недостаточно используются в этой области. Эти модели, хотя и полезны, страдают от таких проблем, как фокусировка на однозадачных системах (таких как классификация, регрессия, сегментация и т. д.), недостаточная выразительность и интерактивность.
Прорыв в области больших моделей открыл новые возможности для ИИ + медицинское обслуживание, но из-за специфики этой области все еще необходимо учитывать потенциальные опасности, такие как предоставление ложной медицинской информации.
Команда предложила контрольный показатель, состоящий из семи наборов данных с ответами на медицинские вопросы.
Тест состоит из 6 существующих наборов данных, которые также включают MedQA (USMLE, вопросы экзамена на получение медицинской лицензии в США), а также представляет собственный новый набор данных HealthSearchQA, который состоит из искомых вопросов о здоровье.
Было обнаружено, что Flan-PaLM достиг самых современных результатов в нескольких тестах, таких как MedQA, MedMCQA, PubMedQA и MMLU. В частности, набор данных MedQA (USMLE) превзошел предыдущую модель SOTA более чем на 17%.
В данном исследовании рассматривались три варианта моделей PaLM и Flan-PaLM разного размера: 8 миллиардов параметров, 62 миллиарда параметров и 540 миллиардов параметров.
Тем не менее, Flan-PaLM по-прежнему имеет определенные ограничения и плохо справляется с медицинскими проблемами потребителей.
Чтобы решить эту проблему и сделать Flan-PaLM более адаптируемым к медицинской сфере, они скорректировали подсказку с инструкциями, в результате чего появилась модель Med-PaLM.
Сначала команда случайным образом выбрала несколько примеров из наборов данных бесплатных ответов MultiMedQA (HealthSearchQA, MedicationQA, LiveQA).
Затем группы из 5 клиницистов попросили дать примерные ответы. Эти клиницисты базируются в США и Великобритании и имеют специализированный опыт в области первичной медико-санитарной помощи, хирургии, внутренних болезней и педиатрии.