Google недавно анонсировала запуск своих новых моделей искусственного интеллекта Gemini, сопровождая это событие выпуском последней версии своего флагманского тензорного процессора (TPU) для обучения и вывода ИИ. Этот шаг Google видится как попытка состязаться с лидирующими на рынке графическими процессорами (GPU) от Nvidia.
TPU v5p , самый мощный ускоритель ИИ от Google, был задействован для работы “AI Hypercomputer”. Это суперкомпьютерная архитектура, специально созданная для запуска приложений искусственного интеллекта, в отличие от обычных суперкомпьютеров, которые обычно используются для научных расчетов.
Последняя версия TPU включает в себя 8,960 чипов на каждый узел (часть системы), по сравнению с 4,096 в версии v4, и в четыре раза более масштабируема в плане доступности FLOPs на узел. Новые узлы обеспечивают пропускную способность в 4,800Gbps и имеют 95GB высокоскоростной памяти (HBM) против 32GB HBM RAM в TPU v4.
Отличие между Nvidia H100 и Google TPU v5p в скорости: Google не предлагает свои TPUs другим компаниям для покупки, они используются исключительно внутри компании для собственных продуктов и сервисов. Долгое время TPUs от Google использовались для поддержки таких сервисов, как Gmail, YouTube и Android, а последняя версия также была использована для обучения Gemini.
TPU v5p от Google в 2.8 раза быстрее обучает крупные языковые модели, чем TPU v4, и предлагает в 2.1 раза больше ценности за деньги. Хотя промежуточная версия TPU v5e, выпущенная ранее в этом году, предлагает наибольшую ценность, она всего на 1.9 раза быстрее TPU v4, что делает TPU v5p наиболее мощным вариантом.
TPU v5p даже достаточно мощен, чтобы конкурировать с широко востребованным GPU H100 от Nvidia, одним из лучших графических карт для работы с ИИ. Этот компонент в четыре раза быстрее обрабатывает рабочие нагрузки, чем GPU A100 от Nvidia, согласно данным компании.
Тем временем, TPU v4 от Google, согласно исследованию , опубликованному в апреле, в 1.2-1.7 раз быстрее, чем A100. Предварительные расчеты показывают, что TPU v5p примерно в 3.4-4.8 раза быстрее, чем A100, что ставит его наравне или даже выше, чем H100, хотя для окончательных выводов необходимы более детальные тесты.