Компания DeepMind представилановую модель Robotic Transformer 2 (RT-2), способную переводить визуальные и языковые данные в конкретные действия. Модель, основанная на принципах vision-language-action (VLA), обучается на данных, полученных из интернета и робототехники, и преобразует информацию в обобщенные инструкции для управления роботами.
RT-2 разработана на основе предыдущей модели Robotic Transformer 1 (RT-1), которая была обучена на многозадачных демонстрациях и способна учиться комбинациям различных задач и объектов, представленных в робототехнических данных.
Модель получает изображения с камеры робота и напрямую прогнозирует действия, которые должен выполнить робот
RT-2 демонстрирует улучшенные способности к обобщению, а также глубокое понимание семантики и визуализации, превосходящее рамки данных, с которыми модель работала ранее. Сюда входят интерпретация новых команд и реагирование на команды пользователя, выполняя примитивное рассуждение, например, о категориях объектов или их высокоуровневых описаниях.
Модель также может предсказывать действия робота. В этом примере на инструкцию: “Мне нужно забить гвоздь, какой предмет со сцены мог бы пригодиться?” модель предсказала, что робот после логических рассуждений возьмёт камень
RT-2 обладает способностью выполнять более сложные команды, которые требуют рассуждения о промежуточных шагах, необходимых для выполнения задачи. Благодаря своей основе на VLM-модели, RT-2 может планировать действия, основываясь как на изображениях, так и на текстовых командах, что позволяет осуществлять визуально обоснованное планирование.
RT-2 демонстрирует, что VLM-модели могут напрямую управлять роботом путем сочетания предварительного обучения VLM с робототехническими данными. RT-2 не просто улучшает существующие VLM-моделей, но и открывает перспективы создания универсального физического робота, способного рассуждать, решать проблемы и интерпретировать информацию для выполнения широкого спектра задач в реальном мире.