Microsoft AI представляет LLaVA-Med : эффективно обученный большой языковой и визуальный ассистент, революционизирующий биомедицинский поиск, обеспечивающий продвинутые мультимодальные разговоры менее чем за 15 часов.
Команда исследователей из Microsoft AI предложила новый метод обучения визуально-языкового разговорного ассистента, который может отвечать на открытые вопросы о биомедицинских изображениях. Их подход основан на использовании большого набора данных с биомедицинскими рисунками и подписями, извлеченных из PubMed Central и GPT-4 для самоинструкции открытых данных по выполнению инструкций из подписей.
Модель имитирует постепенный процесс, с помощью которого неспециалист приобретает биологические знания, сначала учась выравнивать биомедицинскую лексику с помощью пар рисунок-подпись, а затем учась овладевать открытой разговорной семантикой с помощью данных по выполнению инструкций, сгенерированных GPT-4.
Результатом работы стал LLaVA-Med: большой языковой и визуальный ассистент для биомедицины, который может общаться в мультимодальном режиме и выполнять свободные инструкции. LLaVA-Med хорошо подходит для ответов на вопросы, связанные с биологическими изображениями.
После дообучения LLaVA-Med показывает лучшие результаты на трех эталонных наборах данных по биомедицинскому визуальному вопросно-ответному диалогу. Данные о том, насколько хорошо люди выполняют инструкции, и модель LLaVA-Med будут опубликованы для продвижения мультимодальных исследований в области биомедицины.