Специалисты по искусственному интеллекту из Университета Северной Каролины выявили серьезную проблему в работе современных систем машинного обучения и нашли способ её решения. Речь идет о так называемых “ложных корреляциях” – ситуациях, когда ИИ начинает принимать решения на основе случайных, несущественных признаков, игнорируя действительно важные характеристики.
Это явление можно сравнить с тем, как если бы человек пытался определить профессию прохожих исключительно по цвету их одежды, не обращая внимания на более существенные признаки – наличие специальной формы, инструментов или контекст ситуации. В случае с искусственным интеллектом проблема становится еще серьезнее, так как системы могут находить и использовать совершенно неочевидные для человека связи.
“Уникальность нашего метода в том, что его можно применять даже когда мы не знаем, на какие именно ложные корреляции опирается ИИ”, – поясняет Юнг-Ын Ким, ведущий автор работы и доцент кафедры компьютерных наук. “Если вы уже понимаете, какие признаки создают проблему, наша технология поможет эффективно её решить. Но даже если вы просто замечаете, что система работает не так хорошо, как должна, наш метод поможет определить наличие ложных корреляций и устранить их”.
Проблема возникает из-за того, что при обучении искусственный интеллект стремится найти самый простой путь для решения поставленной задачи – это явление называется “склонностью к упрощению”. Рассмотрим конкретный пример: допустим, мы обучаем систему распознавать собак на фотографиях. Для этого специалисты создают набор данных – множество снимков, где указано, есть на них собака или нет.
В процессе обучения система должна самостоятельно определить признаки, по которым можно идентифицировать собаку – форму ушей, особенности шерсти, строение тела. Однако если на большинстве фотографий в обучающей выборке собаки носят ошейники, ИИ может пойти по пути наименьшего сопротивления. Ошейник – это простой для распознавания объект с четкими границами и формой, в отличие от более сложных признаков, таких как структура шерсти или форма морды.
“В результате система может начать использовать наличие ошейника как основной признак для идентификации собак”, – объясняет профессор Ким. “Это приведет к ошибкам: любое животное с ошейником, будь то кошка или даже игрушечный медведь, может быть классифицировано как собака”.
До сих пор специалисты боролись с этой проблемой, пытаясь сначала выявить проблемные признаки, а затем корректировать обучающие данные. Например, они могли добавить больше фотографий собак без ошейников или увеличить значимость таких снимков при обучении. Однако новое исследование показало: часто невозможно определить, какие именно признаки создают проблему, что делает традиционные методы бесполезными.
Команда разработала принципиально новый подход, основанный на анализе поведения системы во время обучения. “В любом наборе данных есть образцы разной сложности – от очень простых до крайне запутанных. Мы можем измерить ‘сложность’ каждого примера, наблюдая за тем, как модель реагирует на него в процессе обучения”, – рассказывает Ким.
Исследователи обнаружили закономерность: самые сложные для понимания образцы часто содержат шум и неоднозначности. Именно они с наибольшей вероятностью заставляют нейросеть опираться на случайные, нерелевантные признаки, которые затем ухудшают общую производительность модели.
“Мы предположили, что если удалить небольшую часть самых сложных примеров из обучающего набора, мы также избавимся от данных, содержащих проблемные признаки”, – поясняет ученый. “Такой подход позволяет разорвать ложные корреляции, не вызывая при этом существенных негативных последствий для общей способности системы к обучению”.
Испытания подтвердили эффективность метода: он позволил улучшить работу систем даже по сравнению с предыдущими исследованиями, где проблемные признаки были известны заранее и корректировались напрямую. Это открытие может значительно повлиять на развитие технологий машинного обучения, делая искусственный интеллект более надежным и предсказуемым.
Работа под названием “Severing Spurious Correlations with Data Pruning” (“Устранение ложных корреляций путем очистки данных”) будет представлена на Международной конференции по изучению представлений (ICLR 2025), которая пройдет в Сингапуре с 24 по 28 апреля. Исследователи надеются, что их метод поможет создавать более совершенные системы искусственного интеллекта, способные действительно понимать суть решаемых задач, а не опираться на случайные совпадения в данных.