Группа исследователей из ведущих американских университетов обнаружила серьезные недостатки в работе современных языковых моделей. Полученные данные заставляют усомниться в надежности систем ИИ при решении практических задач.
Специалисты из Гарварда, MIT, Чикагского университета Бут и Корнелльского университета сосредоточились на изучении навигационных способностей ИИ. LLM, тестируемая на улицах Нью-Йорка, поначалу демонстрировала впечатляющие результаты при составлении маршрутов.
Однако стоило учёным внести изменения в дорожную ситуацию, закрыв некоторые улицы и добавив объезды, как точность навигации резко упала. Анализ внутренней карты города, созданной программой, выявил серьёзные искажения – программа нарисовала несуществующие улицы, якобы соединяющие далеко расположенные друг от друга перекрестки.
По словам одного из авторов исследования, профессора экономики MIT, Ашеша Рамбачана, чтобы объяснить этот феномен, важно понять, как работают внутренние механизмы языковых моделей. Исследователи сфокусировались на архитектуре “трансформер”, которая лежит в основе популярных технологий вроде GPT-4. Такие системы проходят обучение на массивных текстовых базах данных, постоянно совершенствуя способность предугадывать следующие элементы в последовательности – будь то слова или символы.
Для оценки качества работы трансформеров было разработано два новых метода тестирования. В качестве проверочных заданий авторы отобрали задачи из класса детерминированных конечных автоматов (DFA) – последовательности состояний с чётко определёнными правилами перехода.
Наряду с навигацией по Нью-Йорку, учёные проверили способность ИИ играть в настольную игру Отелло. В ходе экспериментов модели демонстрировали почти безупречную точность ходов, однако глубокий анализ показал, что они не понимают саму суть игры.
Обнаружилась парадоксальная закономерность: трансформеры, которые делали ходы на основе случайного выбора, формировали более правильное понимание игровых принципов, чем модели, обученные на конкретных партиях. При этом из всех протестированных систем только одна действительно освоила правила Отелло, а не просто копировала ранее виденные комбинации.
В экспериментах с навигацией картина схожая. Несмотря на первоначальную точность маршрутов, ни одна модель не смогла построить достоверную карту Нью-Йорка. Закрытие всего одного процента дорог обрушило точность навигации со 100% до 67%.
Результаты исследования будут представлены научному сообществу на предстоящей Конференции по нейронным системам обработки информации. Полученные данные указывают на необходимость фундаментального пересмотра методов создания языковых моделей. В дальнейшем исследователи планируют расширить применение разработанных методик на другие научные задачи.