О3 от OpenAI: 96.7% на математическом тесте и новый подход к обработке данных

21 Dec 2024 6:09 am GMT+0000 Date Time

В пятницу, на 12-й день серии объявлений “12 дней OpenAI”, генеральный директор компании Сэм Альтман представил новые AI-модели “о3” и “о3-mini”, которые совершенствуют линейку “о1”, запущенную ранее в этом году. Модели пока недоступны для широкой публики, но их уже открыли для исследователей и тестирования безопасности.

Главная особенность этих моделей – технология “приватной цепочки рассуждений”. Она позволяет моделям приостанавливаться, анализировать внутренний диалог и планировать свои ответы, демонстрируя “симулированное мышление” (Simulated Reasoning, SR). Это следующий этап развития искусственного интеллекта, выходящий за пределы возможностей традиционных больших языковых моделей (LLMs).

Модели получили название “о3”, чтобы избежать конфликтов с брендом британского телеком-провайдера O2. Альтман, комментируя необычный выбор имени, отметил: “В лучших традициях OpenAI, мы снова ужасны в названии наших продуктов”.

Модель о3 уже побила рекорды на нескольких ключевых тестах. На визуальном бенчмарке ARC-AGI она набрала 75,7% в низкозатратном режиме и 87,5% в режиме высокой вычислительной мощности, достигнув уровня человеческой производительности. Также о3 показала 96,7% на экзамене American Invitational Mathematics 2024 года, ошибившись лишь в одном вопросе, и продемонстрировала 87,7% на тесте GPQA Diamond с вопросами уровня аспирантуры по биологии, физике и химии. На Frontier Math от EpochAI модель решила 25,2% задач, в то время как другие AI не преодолели порога в 2%.

Упрощённая версия, о3-mini, предложила новый подход к вычислениям с настройкой скорости обработки данных – низкой, средней и высокой. При этом высокие настройки демонстрируют лучшие результаты. О3-mini уже превзошла предыдущую модель о1 на тестах Codeforces.

Выход моделей совпал с аналогичными разработками конкурентов. Google накануне представила Gemini 2.0 Flash Thinking Experimental, DeepSeek запустила DeepSeek-R1, а Alibaba презентовала QwQ, назвав её первой “открытой” альтернативой модели о1.

OpenAI заявляет, что сначала новые модели будут доступны исследователям безопасности, а публичный запуск версии о3-mini ожидается в конце января, тогда как полноценный релиз о3 запланирован на более поздний срок.

Public Release.