Компания xAI, основанная Илоном Маском и получившая около миллиарда долларов на развитие технологий, связанных искусственным интеллектом, объявила об открытии большой языковой модели Grok, применяемой в чатботе, интегрированном в социальную сеть X (Twitter). Набор весовых коэффициентов, архитектура нейронной сети и примеры использования опубликованы под лицензией Apache 2.0. Для загрузки доступен готовый к применению архив с моделью, размером 296 ГБ (magnet).
Модель Grok предварительно обучена на большой коллекции текстовых данных, используя разработанный в xAI собственный стек обучения, и охватывает около 314 миллиардов параметров, что делает её крупнейшей из доступных открытых больших языковых моделей. Для сравнения недавно открытая Google модель Gemma насчитывает 7 млрд параметров, Meta LLaMA – 65 млрд параметров, Yandex YaLM – 100 млрд, OpenAI GPT-3.5 – 175 млрд, а лидер рынка, модель GPT-4, предположительно включает 1.76 триллиона параметров.
Открытый вариант модели Grok-1 опубликован в базовом представлении и не включает оптимизаций для определённых областей использования, таких как организация диалоговых систем. Для тестирования требуется GPU c большим объёмом памяти (каким именно не уточняется).
В открытом доступе размещён статичный слепок модели, в то время как одной из особенностей развиваемого для Twitter-а чатбота Grok является динамическая адаптация к появляющемуся новому содержимому (для доступа к новым знаниям используется интеграция с платформой X/Twitter).
Построенный на базе Grok чатбот опережает GPT-3.5 в тестах на решение математических задач средней школы (GSM8k), формирование ответов на междисциплинарные вопросы (MMLU), дополнение кода на языке Python (HumanEval) и решение вузовских математических задач, описанных в формате LaTeX (MATH).