Симуляция разума или реальный интеллект: тест, который ИИ не прошёл

Современные модели искусственного интеллекта, способные к так называемому “смоделированному рассуждению” (Simulated Reasoning, SR), демонстрируют любопытный парадокс. Они справляются с рутинными математическими задачами, но проваливаются на более глубоком уровне – при решении конкурсных задач, требующих построения строгих доказательств.

К такому выводу пришли исследователи из ETH Zurich и INSAIT при Софийском университете – Иво Петров и Мартин Вечев. Их работа “Доказательство или блеф? Оценка LLM на математической олимпиаде в США в 2025 году” проливает свет на реальные ограничения SR-моделей, несмотря на амбициозные заявления некоторых разработчиков ИИ.

В отличие от обычных крупных языковых моделей (LLM), SR-модели обучены генерировать цепочку рассуждений – пошаговый процесс решения задач. При этом “смоделированное” не означает полного отсутствия рассуждений, а указывает на отличие их методов от человеческих.

Для тестирования возможностей SR-моделей были выбраны задания 2025 года с Олимпиады по математике США (USAMO). Эти задачи требовали не просто ответов, а полных логических доказательств. По результатам тестирования средний процент правильных решений для большинства моделей составил менее 5%. Лишь Google Gemini 2.5 Pro смогла достичь 24% от максимального результата, тогда как остальные участники – такие как DeepSeek R1, Grok 3, Anthropic Claude 3.7 Sonnet и Qwen”s QwQ-32B – показали ещё более скромные результаты.

При анализе ошибок стало очевидно: модели часто делали логические скачки без достаточных обоснований, строили выводы на непроверенных предположениях и не исправляли собственные противоречия. Так, например, модель Qwen QwQ допустила ошибку на пятой задаче USAMO, неправильно исключив допустимые значения, что привело к неверному решению.

Особую обеспокоенность вызвал тот факт, что модели с высокой уверенностью выдавали ошибочные доказательства, не демонстрируя признаков осознания собственных ошибок. Авторы исследования считают, что одна из причин кроется в методах обучения моделей – например, в неправильном перенесении требований к форматированию ответов в неприменимых контекстах.

Разрыв между решением задач и построением доказательств наглядно демонстрирует границу возможностей современных SR-моделей. Они умеют эффективно распознавать и воспроизводить знакомые шаблоны, но не способны к полноценному конструированию новых логических рассуждений.

Технология chain-of-thought действительно улучшает результаты, поскольку увеличивает вычислительные ресурсы, направляемые на последовательную генерацию промежуточных выводов. Однако в основе остаётся чистая вероятностная обработка данных, а не подлинное понимание абстрактных понятий.

Хотя такие модели, как Gemini 2.5 Pro, уже показывают заметные улучшения, преодоление текущего барьера потребует гораздо более глубоких изменений в архитектуре и обучении нейросетей. Имеются предложения интегрировать элементы символьного ИИ и проверку доказательств, чтобы устранить склонность моделей к уверенной генерации некорректных решений.

Некоторые исследователи видят перспективу в гибридных подходах вроде AlphaGeometry от DeepMind, которые объединяют нейронные сети с методами формальной верификации. Такие системы не гарантируют нахождение решения, но предотвращают генерацию ложных доказательств – тем самым устраняя ключевой недостаток современных SR-моделей.

Краткосрочные прогнозы остаются сдержанными: на пути к подлинному математическому мышлению ИИ ещё предстоит преодолеть значительные технологические и концептуальные барьеры.

Public Release.