Компания Meta представила новую модель искусственного интеллекта, которая может создавать изображения по текстовым описаниям и писать подписи к ним. Модель называется CM3Leon и, по утверждению разработчиков, обладает лучшим качеством генерации изображений среди существующих аналогов.
CM3Leon отличается от большинства других генераторов изображений тем, что она использует трансформеры – специальные архитектуры нейронных сетей, которые могут обрабатывать разные типы данных, такие как текст или изображения. Трансформеры позволяют модели быстрее обучаться и лучше учитывать контекст входных данных. Кроме того, CM3Leon требует в пять раз меньше вычислительных ресурсов и меньшего объема обучающих данных, чем предыдущие методы на основе трансформеров.
Для обучения CM3Leon компания Meta использовала миллионы лицензированных изображений с сайта Shutterstock. Самая мощная версия модели имеет 7 миллиардов параметров – это в два раза больше, чем у конкурирующей модели DALL-E 2 от OpenAI. Параметры определяют навыки модели по решению задачи, такой как генерация текста или изображений.
Одним из ключевых факторов успеха CM3Leon является техника под названием SFT (supervised fine-tuning), которая заключается в дополнительной настройке модели на специфических задачах. Эта техника уже применялась для обучения текстовых генераторов, таких как ChatGPT от OpenAI, но Meta предположила, что она может быть полезна и для области изображений. Действительно, SFT улучшила работу CM3Leon не только по генерации изображений, но и по написанию подписей к ним, а также по ответам на вопросы об изображениях и редактированию изображений по текстовым инструкциям (например, “измени цвет неба на ярко-синий”).
Большинство генераторов изображений испытывают трудности с “сложными” объектами и текстовыми запросами, которые содержат слишком много ограничений. Но CM3Leon справляется с этим лучше – или по крайней мере не так часто. В нескольких примерах, подобранных компанией Meta, CM3Leon создавала изображения по запросам типа “Маленький кактус в соломенной шляпе и неоновых солнцезащитных очках в пустыне Сахара”, “Крупный план человеческой руки”, “Енот-главный герой аниме, готовящийся к эпической битве с самурайским мечом” и “Дорожный знак в фэнтезийном стиле с текстом “1991””. Для сравнения я запустил те же запросы через DALL-E 2. Некоторые результаты были близки. Но изображения CM3Leon были в целом более соответствующими запросу и детализированными на мой взгляд, особенно знак.
CM3Leon также может понимать инструкции по редактированию существующих изображений. Например, по запросу “Создай высококачественное изображение “комнаты с раковиной и зеркалом” с бутылкой в точке (199, 130)” модель может сгенерировать что-то визуально связное и, как выражается Meta, “соответствующее контексту” – комната, раковина, зеркало, бутылка и все. DALL-E 2 совершенно не справляется с нюансами таких запросов, иногда полностью пропуская объекты, указанные в запросе.
И, конечно, в отличие от DALL-E 2, CM3Leon может выполнять различные запросы по генерации коротких или длинных подписей и ответам на вопросы о конкретном изображении. В этих областях модель показала лучшие результаты, чем даже специализированные модели для подписывания изображений (например, Flamingo, OpenFlamingo), несмотря на то, что видела меньше текста в своих обучающих данных, утверждает Meta.
Но что насчет предвзятости? Генеративные модели искусственного интеллекта, такие как DALL-E 2, были обнаружены в усилении общественных предрассудков, например, создавая изображения должностей власти – таких как “CEO” или “директор” – которые изображают в основном белых мужчин. Meta оставляет этот вопрос без ответа, говоря только, что CM3Leon “может отражать любые предрассудки, присутствующие в обучающих данных”.
“По мере того, как индустрия искусственного интеллекта продолжает развиваться, генеративные модели, такие как CM3Leon, становятся все более совершенными”, – пишет компания. “Хотя индустрия еще находится на ранних стадиях понимания и решения этих проблем, мы считаем, что прозрачность будет ключом к ускорению прогресса”.