Американская компания Apple славится закрытостью своих разработок, однако на этот раз она сделала значительный шаг в сторону открытости, выпустив модель генеративного искусственного интеллекта под названием OpenELM. Это полностью открытая модель, превосходящая многие другие LLM, обученные на общедоступных данных.
Apple заявляет, что OpenELM на 2,36% точнее представленной в феврале модели OLMo от института AI2. При этом модель от Apple использует в два раза меньше токенов для предварительного обучения. Несмотря на небольшую разницу в производительности, представленная компанией модель подчёркивает стремление Apple к совершенству. Кто знает, возможно, однажды у неё даже получится занять лидирующие позиции в отрасли.
Ключевым новшеством стало решение Apple не только показать саму модель, но и предоставить полный набор инструментов для её обучения и оценки. В отличие от предыдущих практик, когда компании предоставляли только веса модели и код для инференции, Apple делится всем необходимым для обучения и оценки на публичных данных, включая логи, контрольные точки и конфигурации предварительного обучения.
Техника, используемая в OpenELM, называется масштабированием слоёв, что позволяет более эффективно распределять параметры в модели трансформера. Это обеспечивает повышенную точность ответов модели в тестах на основе стандартных задач.
Для обучения OpenELM использовались массивные наборы данных, включая GitHub, Википедию, StackExchange и другие источники. Особенностью выпуска является включение кода для конвертации моделей в библиотеку MLX, что позволяет использовать их на устройствах Apple. Это значительно упрощает труд разработчиков, позволяя обрабатывать данные прямо на устройствах, не используя облачные сервисы.
Однако, несмотря на повышенную точность, OpenELM показал меньшую производительность по сравнению с предыдущими моделями, что исследователи связывают с использованием неоптимизированного алгоритма RMSNorm. В будущем компания планирует дальнейшие оптимизации для повышения скорости работы модели.
Apple рекомендует использовать модель OpenELM с осторожностью, так как она поставляется без гарантий безопасности и потенциально может генерировать вредоносные ответы. Это сильно отличается от подхода Microsoft, которая удалила свою новую модель WizardLM 2 из открытого доступа, когда узнала, что она не была протестирована по всем правилам новой политики безопасности.