Ученые Anthropic открыли метод анализа ИИ: шаг к пониманию цифрового мозга

В недавнемисследовании, проведенном бывшими сотрудниками OpenAI, а ныне сотрудничающими с Anthropic, предложен новый подход к пониманию искусственных нейронных сетей. Эти сети, по своей сути цифровые версии человеческих мозгов, способны выполнять различные задачи, от игры в шахматы до перевода языков.

Ученые сосредоточились на комбинациях нейронов, которые коллективно создают различимые закономерности или особенности, вместо того чтобы тщательно изучать отдельные нейроны. Закономерности оказываются более точными и последовательными, чем их отдельные нейронные аналоги, что позволяет лучше понимать поведение сети.

Основным недостатком способа является отсутствие четко определенной цели у отдельных нейронов в системе. Например, в языковой модели один нейрон может реагировать на различные сценарии, варьируя свою активность.

В статье учёных представлен новый подход к анализу трансформерных моделей. Методика предполагает использование словарного обучения для разложения слоя из 512 нейронов на более 4 000 различных функций, охватывающих широкий спектр тем и концепций, начиная от последовательностей ДНК и юридической терминологии и заканчивая веб-запросами, текстами на иврите и данными о питании.

Такие многогранные особенности остаются в значительной степени скрытыми при исследовании отдельных нейронов. Исследователи используют два разных метода, чтобы продемонстрировать улучшенную интерпретируемость этих функций по сравнению с нейронами.

В первом эксперименте исследователи оценивали простоту понимания функциональности каждой закономерности. Характеристики значительно превосходят нейроны с точки зрения интерпретируемости.

Во втором эксперименте была использована языковая модель для создания кратких описаний каждой особенности, а затем используют другую модель для прогнозирования степени активации каждой функции на основе описаний.

Новые особенности позволяют более точно контролировать поведение сети, что подтверждено универсальностью закономерностей в различных моделях. Эксперименты также были проведены для точной настройки числа особенностей, создавая “рукоятку” для регулировки исследования модели.

Работа является этапом стремления Anthropic к механистической интерпретируемости, что отражает долгосрочное стремление к продвижению безопасности ИИ. Это исследование создает мост между компьютерными науками и нейронауками, раскрывая новые горизонты для понимания искусственных нейронных сетей.

Public Release.