В последние месяцы область робототехники переживает поразительные изменения, во многом благодаря быстрому развитию генеративного искусственного интеллекта. Крупнейшие технологические компании и научные лаборатории используют генеративные ИИ-модели для решения ключевых проблем в робототехнике. Издание VentureBeat рассказалоо некоторых из инновационных способов, с помощью которых генеративный ИИ помогает продвигать исследования в области робототехники.
Преодоление разрыва между симуляцией и реальностью
Тренировка роботов в реальных условиях сталкивается со множеством проблем: это дорого, медленно и ограничено доступом к разнообразным условиям. В ответ на это исследователи используют симуляции. Однако создание детализированных виртуальных сред требует значительных ресурсов и денег. Также возникает проблема “разрыва между симуляцией и реальностью”, когда модели, обученные в виртуальной среде, не могут справляться с реальными условиями.
Генеративные модели стали ключевыми инструментами для преодоления такого разрыва. Например, Nvidia использует модель NeRF для создания реалистичных 3D-сред из видео.
Другие модели также играют важную роль в совершенствовании виртуальных сред. Например, SyncDreamer генерирует несколько представлений объекта из одного 2D-изображения, а UniSim от DeepMind создаёт фотореалистичные видеопоследовательности, которые можно использовать для создания детальных симуляций для обучения роботизированных моделей,
Улучшение взаимодействия между роботами и людьми
Совершенствование коммуникации между человеком и роботом остается важной задачей. Ярким примером является языковая модель Google PaLM-E. Модель сочетает в себе языковые модели и преобразователи зрения, которые совместно обучаются понимать корреляции между изображениями и текстом.
Затем модель применяет эти знания для анализа визуальных сцен и перевода инструкций на естественном языке в действия робота. Такие модели, как PaLM-E, значительно улучшили способность роботов выполнять сложные команды.
Интеграция разнородных наборов данных
Множество данных от разных роботов создает необходимость в их объединении. Например, совместный проект DeepMind и 33 исследовательских институтов RT-X объединил данные от 22 роботов и 20 учреждений. Набор данных включал 500 навыков и 150 000 задач.
Амбициозная цель проекта – разработать ИИ-систему общего назначения, способную работать с различными типами физических роботов и выполнять широкий спектр задач. Проект был вдохновлен работой над большими языковыми моделями (Large Language Model, LLM), которая показывает, что обучение LLM на очень больших наборах данных может позволить выполнять задачи, которые ранее были недоступны.
Создание лучших моделей вознаграждений
Генеративные модели нашли широкое применение при написании кода и, что интересно, они также могут генерировать код для обучения роботов. Последняя модель Nvidia Eureka использует генеративный ИИ для разработки моделирования вознаграждения – общеизвестно сложного компонента систем обучения с подкреплением, используемых при обучении роботов.
Eureka использует GPT-4 для написания кода, устраняя необходимость в подсказках для конкретных задач или предопределенных шаблонах вознаграждений. ИИ использует среды моделирования и графические процессоры для быстрой оценки качества большого количества кандидатов на вознаграждение, тем самым оптимизируя процесс обучения. Eureka также способен анализировать и улучшать генерируемый код. Более того, ИИ может учитывать отзывы людей, чтобы усовершенствовать модель вознаграждения и более точно привести ее в соответствие с целями разработчика.
Генеративные модели, начавшие с простых задач, теперь применяются в гораздо более сложных областях. С развитием генеративного ИИ в робототехнике можно ожидать еще больших инноваций и более широкого применения роботов в повседневной жизни.