Прорыв в аудиогенерации: как Google DeepMind улучшает общение с ИИ

6 Nov 2024 9:36 am GMT+0000 Date Time

Компания DeepMind, принадлежащая Google, продолжает развивать инновационные технологии для генерации речи, делая цифровые ассистенты и ИИ-инструменты более естественными и интуитивными для пользователей по всему миру. Эти достижения направлены на создание реалистичного звука, что помогает людям общаться, обмениваться информацией и выражать эмоции.

Недавно компания представила две функции для генерации диалогов: NotebookLM Audio Overviews и Illuminate. Первая позволяет превратить загруженные документы в диалог между двумя ИИ-хостами, которые обобщают материал и создают ассоциативные связи. Вторая – помогает превратить научные статьи в понятные обсуждения, делая информацию доступнее.

На основе исследований в области аудиогенерации, Google DeepMind создала модели, способные воспроизводить диалоги между несколькими говорящими, используя инновации, такие как SoundStream и AudioLM. SoundStream сжимает аудио без потери качества, превращая его в токены, сохраняющие важные свойства, как тембр и интонации. AudioLM же моделирует процесс генерации речи как задачу обработки языка, что позволяет ему гибко работать с различными звуками.

В рамках масштабирования моделей для многоголосой генерации DeepMind разработала более эффективный аудиокодек, сжимающий звук до 600 бит в секунду. При этом модель способна генерировать 2-минутные диалоги за 3 секунды – более чем в 40 раз быстрее реального времени.

Для обучения модели использовались сотни тысяч часов аудиоданных, после чего её дообучили на основе разговоров с актёрами и естественными паузами и интонациями. Это позволило модели создавать реалистичные диалоги, точно переключаясь между говорящими и поддерживая студийное качество звука.

Соблюдая принципы ответственного развития ИИ, DeepMind добавила в модели технологию SynthID для водяных знаков на аудиофайлах, генерируемых ИИ. Это поможет предотвратить потенциальное неправомерное использование технологий.

Будущее этой технологии обещает улучшение качества звука и более точные настройки, включая работу с видео. Сочетание этих нововведений с моделями семейства Gemini открывает большие перспективы для создания доступного и инклюзивного контента, что особенно актуально для образовательных проектов и мультимодальных решений.

Public Release.