Mistral представилановейшую флагманскую модель Large 2, которая призвана составить конкуренцию OpenAI и Meta* в генерации кода, математике и логике. Выпуск Large 2 произошел всего через день после релиза новой модели Meta Llama 3.1 405B с открытым исходным кодом.
Используя всего 123 миллиарда параметров, Large 2 превосходит Llama 3.1 405B по производительности в генерации кода и математике, и работает на одном уровне с ведущими моделями GPT-4o, Claude 3 Opus. В частности, по эталону MMLUпредобученная версия достигает точности 84,0%. По заявлению Mistral, Large 2 формулирует более сжатые ответы по сравнению с ведущими моделями ИИ, которые часто излишне многословны.
Сравнение производительности Large 2 и Llama 3.1 в генерации кода и математике
Одним из ключевых направлений при обучении модели было минимизировать проблемы с “галлюцинациями”, то есть ошибочными ответами. Модель была обучена более осторожно реагировать на запросы, признавая, когда она чего-то не знает, вместо того чтобы придумывать правдоподобные, но неверные ответы.
Важно отметить, что модели Mistral, как и большинство других, не являются открытыми в традиционном смысле – для коммерческого использования модели требуется платная лицензия. И хотя модель более открыта, чем, например, GPT-4, лишь немногие в мире обладают достаточным опытом и инфраструктурой для реализации таких масштабных моделей.
Чего не хватает в Mistral Large 2 (как и в Llama 3.1) – мультимодальные возможности. В области мультимодальных систем, способных обрабатывать изображения и текст одновременно, OpenAI значительно опережает конкурентов, и некоторые стартапы активно стремятся внедрить такие функции.
Точность производительности в тестах генерации кода (все модели тестировались с использованием одного и того же конвейера оценки)
Large 2 может обрабатывать до 128 000 токенов за один запрос, что эквивалентно примерно 300 страницам книги. Новая модель также улучшила поддержку нескольких языков. Large 2 понимает десятки языков, в том числе английский, французский, немецкий, испанский, русский, китайский и другие, а также 80 языков программирования, включая Python, Java, C, C++, JavaScript и Bash.
Точность производительности на MultiPL-E (все модели были протестированы с использованием одного и того же оценочного конвейера, за исключением строки “на бумаге”)
Использовать Large 2 можно на платформах Google Vertex AI, Amazon Bedrock, Azure AI Studio и IBM watsonx.ai. Модель также доступна на платформе Mistral под названием “mistral-large-2407” и доступна для бесплатного тестирования на платформе Mistral le Chat . Веса для модели доступныи также размещенына HuggingFace.
* Компания Meta и её продукты признаны экстремистскими, их деятельность запрещена на территории РФ.