Ученые из Массачусетского технологического института (MIT) разработали новый метод , который позволяет решать сложные задачи по обеспечению безопасности и стабильности автономных роботов. Их подход основан на использовании машинного обучения с подкреплением и математической оптимизации. Метод был успешно протестирован на симулированном реактивном самолете, который смог пролететь через узкий коридор, не столкнувшись с землей.
Такая задача известна как проблема “стабилизировать-избежать”, когда робот должен достичь своей цели, избегая препятствий и сохраняя свою траекторию. Многие существующие методы искусственного интеллекта не могут справиться с этой проблемой и не могут безопасно добиться своей цели.
“Это давняя и сложная проблема. Многие люди изучали ее, но не знали, как справиться с такой высокой размерностью и сложностью динамики”, – говорит Чучу Фан, доцент аэронавтики и астронавтики, член Лаборатории информации и принятия решений (LIDS) и старший автор новой статьи об этом методе. Вместе с ним работал основной автор Освин Со, аспирант. Статья будет представлена на конференции Robotics: Science and Systems.
Ученые использовали двухэтапный подход: сначала они обучали робота на основе подкрепления, используя нейронную сеть, которая получала награду за достижение цели и штраф за столкновение с препятствиями. Затем они применяли математическую оптимизацию для уточнения поведения робота и гарантии его безопасности и стабильности.
Исследование показало хорошие результаты в сравнении с другими методами: оно обеспечивало такую же или лучшую безопасность при десятикратном увеличении стабильности, то есть робот достигал и оставался стабилен в своей целевой области. В эксперименте, который был бы по душе Мэверику из фильма “Лучший стрелок”, метод эффективно управлял симулированным реактивным самолетом через узкий коридор без столкновения с землей.
Алгоритм может в будущем применяться в динамических роботах, требующих безопасности и стабильности, например, в автономных дронах для доставки товаров.