JEST: DeepMind совершает прорыв в эффективности обучения ИИ

11 Jul 2024 6:48 am GMT+0000 Date Time

Google DeepMind представила новый метод обучения ИИ под названием JEST (Joint Example Selection Training), который позволяет ускорить процесс обучения в 13 раз и снизить энергозатраты в 10 раз по сравнению с традиционными методами. С развитием ИИ-индустрии увеличивается нагрузка на дата-центры, что приводит к значительным энергетическим затратам и увеличению углеродного следа. JEST предлагает решение этой проблемы, сосредоточив внимание на обработке целых пакетов данных вместо отдельных примеров.

Метод JEST включает обучение небольшой модели, которая оценивает и ранжирует качество данных. Эти ранжированные пакеты данных затем используются для обучения более крупной модели, что позволяет существенно повысить эффективность процесса. Технические аспекты JEST включают мультимодальное контрастное обучение, которое анализирует взаимодействие различных типов данных, таких как текст и изображения. Это позволяет выбирать наиболее информативные и трудные для обучения пакеты данных, ускоряя весь процесс.

Эксперименты DeepMind показали , что JEST позволяет достичь передовых результатов с меньшим количеством итераций обучения и снижением вычислительных затрат. Метод JEST использует алгоритм, вдохновленный Гиббсовским сэмплингом, для выбора лучших пакетов данных для обучения, что обеспечивает значительное улучшение производительности.

Сокращение энергозатрат не только уменьшает расходы, но и помогает решить проблему экологического воздействия ИИ. По данным Института исследований электрической энергии, дата-центры могут потреблять от 4,6% до 9,1% электроэнергии США к 2030 году. Несмотря на успехи, метод JEST все еще требует доступности хорошо подготовленных малых наборов данных для управления процессом отбора. Разработка методов для автоматического определения оптимальных эталонных распределений остается актуальной задачей.

Эффективность JEST показывает значительные перспективы для оптимизации обучения ИИ. По мере роста размеров моделей и их энергетических потребностей такие инновации становятся критически важными для устойчивого развития возможностей искусственного интеллекта.

Public Release.