OpenAI, компания, стоящая за глобальной историей успеха в области искусственного интеллекта (ИИ), недавно привлекла внимание мировых СМИ из-за скандального увольнения и последующего восстановления на работу своего генерального директора Сэма Альтмана.
Вокруг этой ситуации возникло множество вопросов, а некоторые сравнивают события в компании со сценарием из сериалов вроде “Игры престолов”. Одной из причин скандала могло быть переключение внимания Альтмана на другие проекты, в частности на Worldcoin.
Однако наибольший интерес вызывает другая теория, связанная с буквой “Q”. По данным неофициальных источников, главный технический директор OpenAI Мира Мурати указала на важное открытие, известное как “Q Star” или “Q*”, как на основную причину конфликта, который происходил без участия председателя совета директоров Грега Брокмана. В знак протеста Брокман покинул компанию.
Тайна “Q*”
“Q*” может относиться к двум различным теориям в области ИИ: к Q-обучению или к алгоритму Q* из Мэрилендской системы доказательства отрицания (MRPPS).
Теория 1: Q-обучение
Q-обучение – метод обучения с подкреплением, где ИИ учится на основе метода проб и ошибок. Этот подход позволяет ИИ самостоятельно находить оптимальные решения, не полагаясь на человеческое вмешательство, в отличие от текущего подхода OpenAI, известного как обучение с обратной связью от человека (RLHF).
Еще в мае OpenAI опубликовала статью, в которой говорилось, что они “обучили модель достижению нового уровня в решении математических задач, вознаграждая каждый правильный шаг рассуждения, а не просто вознаграждая за правильный окончательный ответ”. Если бы они использовали Q-learning или аналогичный метод для достижения цели, это открыло бы совершенно новый набор проблем и ситуаций, которые ChatGPT смог бы решить естественным образом.
Теория 2: Алгоритм Q* из MRPPS
Алгоритм Q* является частью системы MRPPS и представляет собой сложный метод для доказательства теорем в ИИ, особенно в системах ответов на вопросы. Этот алгоритм объединяет семантическую и синтаксическую информацию для решения сложных задач.
Если “Q” связан с алгоритмом Q* из MRPPS, это может означать значительный прогресс в дедуктивных способностях и решении проблем в ИИ.
Таким образом, в то время как Q-обучение направлено на то, чтобы научить ИИ учиться на основе взаимодействия с окружающей средой, алгоритм Q больше направлен на улучшение дедуктивных способностей ИИ. Понимание этих различий является ключом к осознанию потенциальных последствий “Q” OpenAI . Оба имеют огромный потенциал в развитии ИИ, но их применение и последствия существенно различаются.
Конечно, все это всего лишь предположения, поскольку OpenAI не объяснила концепцию и даже не подтвердила и не опровергла слухи о том, что Q* – чем бы он ни был – на самом деле существует.
Потенциальные последствия “Q*”
Независимо от того, к какой теории относится “Q*”, это может представлять значительный шаг в развитии ИИ. Если “Q*” – это продвинутая форма Q-обучения, это может улучшить способность ИИ к автономному обучению и адаптации. В случае, если “Q” связано с алгоритмом из MRPPS, это может привести к значительному прогрессу в дедуктивном мышлении ИИ.
Такие достижения могут оказать значительное влияние на области, требующие глубокого аналитического мышления, такие как юридический анализ, интерпретация сложных данных и даже медицинская диагностика.
Риски и выгоды “Q*”
С потенциальным прогрессом, связанным с “Q*”, приходят и определенные опасения и этические вопросы, связанные с безопасностью, приватностью и влиянием на рынок труда.
Миф о AGI
Необходимо понимать, что ни одна из теорий, связанных с “Q*”, не равносильна достижению Искусственного Общего Интеллекта (AGI) – конечной цели исследований в области ИИ.
В конечном итоге, хотя “Q*” может быть важным шагом в развитии конкретных способностей ИИ, AGI остается еще далеко за горизонтом.