ИИ-укол от неуклюжести: DeepMind разработала новый “мозг” для своих андроидов

Google DeepMind разработала две новые модели искусственного интеллекта: Gemini Robotics и Gemini Robotics-ER. Разработка позволит роботам любых конфигураций лучше ориентироваться в физическом пространстве и выполнять гораздо более точные манипуляции, чем прежде. В перспективе технология может стать основой для создания человекоподобных андроидов-помощников.

Современные роботы отлично справляются с повторяющимися задачами в стабильных условиях, например, на конвейере. Однако создать интеллектуальную систему, способную безопасно и точно управлять механизмами в нестандартных ситуациях, оказалось намного сложнее. Такие технологии, известные как “воплощенный ИИ” (embodied AI), считаются одной из самых амбициозных целей индустрии наравне с проектами Nvidia. Успех в этой области мог бы превратить машины в универсальных исполнителей, готовых к любой физической работе.

Новые разработки Google построены на базе языковой модели Gemini 2.0, но дополнены специальными возможностями для робототехники. Gemini Robotics использует технологию “зрение-язык-действие” (vision-language-action, VLA). Она анализирует данные с камер, обрабатывает голосовые команды на обычном языке и преобразует их в последовательность движений. При этом происходит постоянный контроль результатов и их своевременная корректировка.

Gemini Robotics-ER фокусируется на “воплощенном мышлении”. Алгоритм оценивает физические свойства предметов, рассчитывает траектории перемещения и учитывает законы физики при манипуляциях с объектами. Главное преимущество – возможность интеграции с существующими платформами управления, что значительно упрощает внедрение в практику.

Достижения впечатляют на практике. При команде “возьми банан и положи в корзину” искусственный интеллект не просто распознает предметы через камеру, но и определяет оптимальный способ захвата с учетом мягкости и формы фрукта. А при создании оригами электронный мозг применяет знания о технике работы с бумагой, отслеживает каждое движение и регулирует силу нажатия для получения аккуратной фигурки.

В прошлом году Google представила модель RT-2 – важный шаг к созданию универсальных помощников. Эта разработка использовала интернет-данные для понимания команд и адаптации к новым задачам, показывая результаты вдвое лучше предшественников. Однако RT-2 могла только повторять заученные движения. Gemini Robotics преодолела это ограничение – теперь машины способны выполнять сложные физические действия, которым их никто специально не обучал.

Если RT-2 просто копировала известные движения, то Gemini Robotics демонстрирует настоящую ловкость и точность. Андроиды справляются с деликатными задачами: аккуратно складывают оригами, бережно упаковывают закуски в пакеты. Переход от простого выполнения команд к тонким манипуляциям может означать прорыв в одной из главных проблем робототехники: как превратить абстрактные “знания” в точные физические действия.

DeepMind сообщает, что новая модель значительно лучше справляется с обобщением – умением решать незнакомые задачи без специальной подготовки. Результаты показывают двукратное превосходство Gemini Robotics над другими современными решениями в тестах на обобщение. Для работы в реальных условиях эта способность критически важна: механический помощник должен уметь действовать в непредвиденных ситуациях.

Многие компании пытаются создать эффективных роботов-помощников, но результаты пока неоднозначны. Например, когда Tesla показала человекоподобного Optimus Gen 3, позже выяснилось, что некоторыми машинами в демонстрации управляли операторы. В этой ситуации Google стремится создать действительно автономную систему – универсальный интеллект для механизмов разных типов.

Для достижения цели компания объединилась с техасской Apptronik. Сотрудничество направлено на создание нового поколения человекоподобных роботов с Gemini 2.0. Хотя основное обучение проводилось на двуруком роботе ALOHA 2, программа уже успешно управляет разными устройствами: от простых манипуляторов Franka до сложных андроидов вроде Apollo от Apptronik.

История Google в робототехнике непроста. В 2013-2014 годах компания приобрела несколько профильных фирм, включая знаменитую Boston Dynamics, но позже продала эти активы. Нынешнее партнерство с Apptronik отражает новую стратегию: вместо создания собственных механизмов Google сосредоточилась на разработке программного обеспечения для них.

Рынок человекоподобных машин становится все более активным. Figure AI недавно получила крупное финансирование для своих проектов. Boston Dynamics, теперь независимая от Alphabet, представила улучшенную версию гибкого робота Atlas. Однако производителям не хватает главного – эффективного искусственного интеллекта для управления. Google предоставила ограниченный доступ к Gemini Robotics-ER через программу “доверенного тестирования” ключевым игрокам отрасли: Boston Dynamics, Agility Robotics и Enchanted Tools.

Безопасность остается приоритетом в разработке. Инженеры Google используют многоуровневый подход, сочетая традиционные механизмы защиты с новыми методами контроля. Помимо базовых функций предотвращения столкновений и ограничения силы воздействия, специалисты создали “Конституцию робота” по мотивам законов робототехники Азимова. Также разработан специальный набор данных ASIMOV для оценки рисков.

Этот датасет представляет собой новый инструмент для проверки безопасности автоматизированных систем. Он включает разнообразные сценарии, позволяющие оценить, насколько хорошо ИИ понимает последствия своих действий в различных ситуациях. Методика выходит за рамки простого предотвращения физического вреда и учитывает сложные аспекты взаимодействия машин с людьми и окружающей средой.

Google пока не называет сроки коммерческого внедрения новых моделей – они остаются исследовательскими проектами. Несмотря на впечатляющие результаты в лабораторных условиях, главный вопрос остается открытым: как разработка проявит себя в непредсказуемой реальности, где каждая ситуация уникальна и требует мгновенной адаптации.

Public Release.