Модель за $6 против суперкомпьютеров: чему учит эксперимент S1

Новая работа, опубликованная в пятницу , привлекла внимание сообщества искусственного интеллекта не столько моделью, сколько демонстрацией того, насколько близки большие прорывы. Представленный в ней алгоритм не превосходит передовые решения, но способен работать на обычном ноутбуке. Главное же – он раскрывает механизмы работы ИИ, и, как оказалось, они не так сложны.

Увеличение времени мышления: простой, но мощный трюк

OpenAI первыми описали масштабируемость моделей при увеличении времени размышления перед ответом. Однако вопрос о том, как именно заставить ИИ “думать” дольше, оставался без подробностей. S1 впервые даёт конкретное объяснение.

Во время работы модель использует специальные теги … для размышлений. Как только она достигает закрывающего тега, её тон сменяется на уверенный, и она формулирует финальный ответ. Разработчики S1 нашли хитрый способ контролировать продолжительность этого процесса: когда модель хочет завершить размышления, ей вместо подставляют слово “Wait”, заставляя её пересматривать выводы. Этот приём оказался простым и действенным способом увеличивать или сокращать время размышления.

Похожий принцип применялся в концепции entropix – регулирование выбора токенов через анализ энтропии. Судя по всему, такие техники будут всё чаще использоваться как на этапе обучения, так и во время работы моделей.

Дёшево и эффективно: новая эра в обучении ИИ

Одним из самых удивительных аспектов S1 стала стоимость обучения: всего $6. Такой результат достигнут за счёт минимизации объёма данных. Исходный набор из 56 000 примеров был отфильтрован до 1 000 самых информативных, чего оказалось достаточно для достижения производительности на уровне OpenAI o1-preview при использовании модели на 32B параметров.

Модель обучалась всего 26 минут на 16 GPU H100, что позволило авторам провести множество экспериментов. Они проверяли каждую гипотезу с помощью абляционного анализа – повторных запусков с небольшими изменениями. Например, слово “Wait” оказалось более эффективным, чем “Hmm”, что было доказано эмпирическим путём.

Такие малозатратные эксперименты ускоряют развитие ИИ, делая исследования доступными не только крупным корпорациям, но и независимым группам.

Политика и будущее развития ИИ

Инновации, снижающие стоимость обучения, поднимают вопросы о роли больших игроков, таких как OpenAI и Anthropic, которые тратят миллиарды на суперкомпьютеры. Можно предположить, что огромные вычислительные мощности избыточны, однако количество возможных экспериментов возрастает пропорционально ресурсам.

Также обсуждается проблема нелегального копирования данных (distealing). S1 использует данные, созданные моделью Qwen2.5, а OpenAI обвиняет DeepSeek в незаконной дистилляции модели o1. Это поднимает вопрос: возможно ли вообще контролировать распространение знаний ИИ, если достаточно небольшого числа примеров для обучения новых моделей?

Вывод: что нас ждёт дальше?

S1 демонстрирует, что прорывы в ИИ происходят не только за счёт масштабных вычислений, но и благодаря дешёвым, но продуманным экспериментам. Кроме того, работа подтверждает, что традиционное обучение (SFT) может быть столь же эффективным, как и методы обучения с подкреплением (RL).

Темпы развития технологий в 2025 году обещают быть головокружительными. Мы только в начале февраля, но уже очевидно, что впереди нас ждут важные открытия.

Public Release.