Исследователи Apple бросили вызов искусственному интеллекту , поставив под сомнение его способность к логическому мышлению. Группа ученых из корпорации провела серию экспериментов, которые показали, что даже самые продвинутые языковые модели не способны решать простейшие математические задачи, с которыми легко справляется большинство людей, и даже дети.
В ходе исследования выяснилось, что ответы ботов на математические вопросы сильно зависят от формулировки задачи. Еще более тревожным оказался тот факт, что эффективность ИИ-моделей значительно снижается при увеличении количества условий в задаче. А значит. Как предположили исследователи, современные LLM не обладают истинными навыками логического мышления. Вместо этого, они пытаются имитировать шаги рассуждений, наблюдаемые в данных, на которых они были обучены.
Для оценки возможностей ИИ команда Apple разработала новый эталонный тест под названием GSM-Symbolic. Этот инструмент позволяет генерировать разнообразные вопросы на основе символических шаблонов.
В задачи GSM-Symbolic добавляли утверждения, которые казались важными, но на самом деле не имели значения. Хотя эти дополнения не меняли логику решения задачи, они существенно запутывали ИИ-модели.
Результаты удивили: производительность всех современных ИИ упала на целых 65% только из-за добавления одной не относящейся к делу переменной в условие задачи.
Команда приводит такой пример: “Оливер собирает 44 киви в пятницу. Затем он собирает 58 киви в субботу. В воскресенье он собирает вдвое больше киви, чем в пятницу, но пять из них оказались немного меньше среднего размера. Сколько киви у Оливера?”
Многие модели, такие как o1-mini и LLama3-8B, допустили ошибку в подсчете киви. Они вычли пять меньших плодов из общего количества и получили неверный ответ – 185 вместо правильных 190. Этот случай ярко показывает, как даже небольшое изменение в условиях задачи может привести к серьезным ошибкам в вычислениях ИИ.
Исследователи отметили, что машины часто пытаются преобразовать утверждения в математические операции, не понимая их истинного смысла. Например, упоминание “скидки” в задаче часто интерпретировалось как необходимость выполнить умножение, независимо от контекста. Интересно, что некоторые более крупные LLM, такие как Claude или Gemini, справились с задачей про киви правильно. Однако это не отменяет общей тенденции к снижению точности при усложнении вопросов.
Наибольшее снижение точности наблюдалось у самых маленьких LLM, содержащих всего несколько миллиардов параметров. Даже O1-preview, самый продвинутый продукт OpenAI, продемонстрировала серьезный регресс на 17,5%.
Для разработки моделей ИИ, способных к формальным рассуждениям и обладающих более надежными навыками решения проблем, потребуется еще множество исследований. Создание систем, обладающих человекоподобным мышлением или общим интеллектом, остается одной из главных задач в области искусственного интеллекта.