Искусственный интеллект умеет распознавать материалы по одному пикселю

Для человека не составляет труда отличить дерево от металла, кожу от ткани, стекло от пластика, но для машины это сложная задача. Ведь один и тот же материал может выглядеть по-разному в зависимости от формы, размера, освещения или тени объекта.

Ученые из MIT и Adobe Research нашли решение этой проблемы. Они создали метод, который позволяет искусственному интеллекту определить все объекты на изображении или видео, сделанные из одного и того же материала. Для этого достаточно выбрать один пиксель, представляющий интересующий материал.

Такой метод может быть полезен для роботов, которые работают с разными предметами в разных условиях. Например, робот-повар сможет подобрать нужное усилие для поднятия или нарезки продуктов из разных материалов. Также это может помочь в редактировании изображений, определении параметров материалов или веб-рекомендациях по материалам.

Метод работает даже при разном освещении или форме объектов, которые могут изменять внешний вид материала. Модель машинного обучения не путается тенями или отражениями.

Ученые обучили модель на синтетических данных, состоящих из 50 000 изображений и более 16 000 материалов. Однако модель хорошо справляется и с реальными сценами, которые она не видела раньше. Метод также работает для видео.

“Знание того, с каким материалом вы взаимодействуете, часто бывает очень важным. Наш метод может облегчить выбор всех других пикселей на изображении, которые сделаны из того же материала”, – говорит Прафулл Шарма, главный автор статьи.

Исследование будет представлено на конференции SIGGRAPH 2023.

Как работает метод?

Основой метода является модель машинного обучения, которая преобразует обычные визуальные особенности в специфические для материала. Для этого она использует предварительно обученную модель компьютерного зрения, которая уже видела миллионы реальных изображений.

Модель вычисляет коэффициент сходства материала для каждого пикселя на изображении. Когда пользователь выбирает пиксель, модель определяет, насколько близок по внешнему виду каждый другой пиксель к запросу. Она создает карту, где каждый пиксель имеет оценку от 0 до 1 по сходству.

Пользователь может настроить результаты, установив порог, например, 90 процентов сходства, и получить карту изображения с выделенными областями. Метод также работает для выбора похожих материалов в другом изображении.

В ходе экспериментов ученые обнаружили, что их модель может предсказывать области изображения, состоящие из одного и того же материала, точнее, чем другие методы. Когда они сравнивали, насколько хорошо предсказание соответствует действительности, то есть реальным областям изображения, состоящим из одного и того же материала, их модель совпадала с точностью около 92 процентов.

В будущем они хотят улучшить модель так, чтобы она могла лучше захватывать мелкие детали объектов на изображении, что повысит точность их подхода.

Public Release.