Ученые из Университета Калифорнии в Лос-Анджелесе, Вашингтонского университета и компании Microsoft представили новый инструмент для оценки способностей искусственного интеллекта (ИИ) в области математического мышления в визуальном контексте – MATHVISTA . Этот инструментарий объединяет задачи из различных математических и визуальных задач и включает в себя 6,141 пример из 28 мультимодальных баз данных, связанных с математикой, а также три новые базы данных: IQTest, FunctionQA и PaperQA. Особенностью MATHVISTA является его способность оценивать не только логическое мышление, но и визуальное восприятие.
Для проверки эффективности различных моделей искусственного интеллекта ученые тестировали 12 ведущих основных моделей, включая три большие языковые модели (LLM), такие как ChatGPT, GPT-4, Claude-2, две крупные мультимодальные модели (LMM) – GPT4V и Bard, а также семь открытых LMM. Они оценивали эти модели на MATHVISTA, используя стратегии запросов с цепочкой мыслей (CoT) и программой мыслей (PoT) в условиях нулевого и ограниченного обучения.
Результаты показывают, что CoT GPT-4, лучшая текстовая модель без визуальных улучшений, достигла общей точности в 29.2%. В сравнении с ней, лучшая мультимодальная модель Bard показала результат в 34.8%, что составляет 58% от человеческой производительности (34.8% против 60.3%). При этом, когда PoT GPT-4 дополняется подписями и текстом OCR от Bard, она достигает 33.9%, что почти соответствует результатам мультимодальной модели Bard.
Однако, анализ указывает на недостатки модели Bard, связанные с неверными расчетами и галлюцинациями, вызванными визуальным восприятием и текстовым рассуждением. Заметно, что GPT-4V, последняя мультимодальная версия GPT-4, достигла точности в 49.9%, что на 15.1% выше, чем у мультимодального Bard. Это первая всеобъемлющая оценка, использующая MATHVISTA, и она предоставляет ценные практические знания для дальнейшего улучшения математического мышления в мультимодальных системах ИИ.