Открыт код системы машинного обучения для генерации реалистичных движений человека

Группа исследователей из Тель-Авивского университета открыла исходные тексты, связанные с системой машинного обучения MDM (Motion Diffusion Model), позволяющей генерировать реалистичные движения человека. Код написан на языке Python с использованием фреймворка
PyTorch и распространяется под лицензией MIT. Для проведения экспериментов можно использовать как готовые модели, так и провести тренировку моделей самостоятельно при помощи предлагаемых скриптов, например, используя коллекцию трёхмерных изображений человека HumanML3D. Для обучения системы требуется GPU с поддержкой CUDA.

Применение традиционных возможностей для анимирования движений человека затруднено из-за усложнений, связанных с большим разнообразием возможных движений и трудностью их формального описания, а также из-за большой чувствительности человеческого восприятия к неестественным движениям. Ранее предпринимаемые попытки использования генеративных моделей машинного обучения имели проблемы с качеством и ограниченной выразительностью.

В предложенной системе предпринята попытка использования для генерации движений диффузионных моделей, которые по своей сути лучше подходят для симуляции человеческих движений, но не лишены недостатков, таких как высокие требования к вычислительным ресурсам и сложность управления. Для минимизации недостатков диффузионных моделей в MDM задействована нейронная сеть с архитектурой “трансформер” и прогнозирование образца (sample) вместо прогнозирования шума на каждом этапе, что упрощает предотвращение аномалий, таких как потеря контакта поверхности с ногой.

Для управления генерацией предусмотрена возможность применения текстового описания действия на естественном языке (например, “человек идёт вперёд и наклоняется чтобы поднять что-то с земли”) или использование типовых действий, таких как “бег” и “прыжки”. Систему также можно применять для редактирования движений и восполнения утраченных деталей. Исследователями было проведено тестирование, участникам которого предлагалось выбрать из нескольких вариантов более качественный результат – в 42% случаев люди отдали предпочтение синтезированным движениям, а не реальным.



Release. Ссылка here.