Первые в отрасли системы NVIDIA HGX B200 от Supermicro демонстрируют лидерство по производительности для ИИ согласно результатам MLPerf Inference v5.0
Компания Super Micro Computer, Inc. (SMCI), поставщик комплексных ИТ-решений для ИИ/машинного обучения, высокопроизводительных вычислений, облачных вычислений, хранения данных и 5G/периферийных вычислений, объявляет о лидирующей производительности по результатам выполнения нескольких тестов MLPerf Inference v5.0 первых на рынке систем, в которых использована платформа NVIDIA HGX™ B200 с 8 графическими процессорами. При выполнении определенных тестов системы высотой 4U с жидкостным охлаждением и 10U с воздушным охлаждением показали наилучшую производительность. Supermicro продемонстрировала повышение скорости генерирования токенов (токен/с) более чем в 3 раза при выполнении тестов Llama2-70B и Llama3.1-405B по сравнению с системами с 8 графическими процессорами H200.
«Supermicro сохраняет лидерство в отрасли искусственного интеллекта, о чем свидетельствуют первые новые тесты, выпущенные MLCommons в 2025 году, — сказал Charles Liang (Чарльз Лян), президент и генеральный директор Supermicro. — Наша модульная архитектура позволяет нам первыми выходить на рынок с широким ассортиментом систем, оптимизированных под разные рабочие нагрузки. Мы продолжаем тесно сотрудничать с NVIDIA, выполняя точную настройку наших систем и добиваясь лидерства применительно к рабочим нагрузкам ИИ».
Компания Supermicro является единственным поставщиком систем, публикующим рекордные показатели производительности по результатам выполнения тестов MLPerf Inference (отдельных тестов) для систем на платформе NVIDIA HGX™ B200 с 8 графическими процессорами как с воздушным охлаждением, так и с жидкостным охлаждением. Системы и с воздушным, и с жидкостным охлаждением были в рабочем состоянии еще до начала испытаний с использованием тестов MLCommons. Инженеры Supermicro оптимизировали системы и программное обеспечение, чтобы продемонстрировать впечатляющую производительность. В пределах рабочих характеристик система Supermicro на процессорах B200 с воздушным охлаждением продемонстрировала тот же уровень производительности, что и система на процессорах B200 с жидкостным охлаждением. На момент выполнения тестов компания Supermicro уже поставляла эти системы клиентам.
MLCommons подчеркивает, что все результаты являются воспроизводимыми, что изделия доступны и результаты могут быть проверены другими членами MLCommons. Инженеры Supermicro оптимизировали системы и программное обеспечение в соответствии с правилами MLCommons.
Системы SYS-421GE-NBRT-LCC (8 процессоров NVIDIA B200-SXM-180GB) и SYS-A21GE-NBRT (8 процессоров NVIDIA B200-SXM-180GB) показали лидирующую производительность при выполнении тестов Mixtral 8x7B Inference, Mixture of Experts с результатом 129 000 токенов в секунду. Система Supermicro с воздушным и жидкостным охлаждением на основе NVIDIA B200 при использовании большой модели Llama3.1-405b выполняла анализ с производительностью более 1000 токенов в секунду, тогда как предыдущие поколения систем на графических процессорах показывали гораздо более низкие результаты. При выполнении меньших задач анализа с использованием теста LLAMA2-70b система Supermicro с установленными процессорами NVIDIA B200 SXM-180GB демонстрирует самую высокую производительность среди поставщиков систем 1-го уровня.
В частности:
- Stable Diffusion XL (сервер)
SYS-A21GE-NBRT (8 процессоров B200-SXM-180GB)
1-й результат по числу запросов в секунду — 28,92 - llama2-70b-interactive-99 (сервер)
SYS-A21GE-NBRT (8 процессоров B200-SXM-180GB)
1-й результат по числу токенов в секунду — 62 265,70 - Llama3.1-405b (автономный режим)
SYS-421GE-NBRT-LCC (8 процессоров B200-SXM-180GB)
1-й результат по числу токенов в секунду — 1521,74 - Llama3.1-405b (сервер)
SYS-A21GE-NBRT (8 процессоров B200-SXNM-180GB)
1-й результат по числу токенов в секунду — 1080,31 (для узла с 8 графическими процессорами) - mixtral-8x7b (сервер)
SYS-421GE-NBRT-LCC (8 процессоров B200-SXM-180GB)
1-й результат по числу токенов в секунду — 129 047,00 - mixtral-8x7b (автономный режим)
SYS-421GE-NBRT-LCC (8 процессоров B200-SXM-180GB)
1-й результат по числу токенов в секунду — 128 795,00
«MLCommons поздравляет Supermicro с прохождением тестов MLPerf Inference v5.0. Мы рады видеть, что результаты систем компании значительно улучшились и показывают существенный рост производительности по сравнению с предыдущими поколениями, — сказал Дэвид Кантер (David Kanter), ответственный за MLPerf руководитель MLCommons. — Клиенты будут довольны повышением производительности, подтвержденной нейтральными, репрезентативными и воспроизводимыми результатами выполнения тестов MLPerf».
Supermicro предлагает полный ассортимент систем для ИИ, включающий более 100 систем, оптимизированных для графических процессоров, как с воздушным, так и с жидкостным охлаждением, с широким выбором процессоров, от оптимизированных однопроцессорных систем до 8-процессорных систем. Системы Supermicro масштаба стойки включают вычислительные модули, модули хранения данных и сетевых ресурсов, что сокращает время монтажа после доставки на объект заказчика.
В системах Supermicro NVIDIA HGX B200 8-GPU используется технология жидкостного и воздушного охлаждения следующего поколения. Недавно разработанные охлаждающие пластины и новый блок распределения хладагента мощностью 250 кВт (CDU) более чем в два раза превышают холодопроизводительность предыдущего поколения в том же форм-факторе 4U. Предлагаемая в конфигурациях 42U, 48U или 52U стоечная конструкция с новыми вертикальными коллекторами распределения охлаждающей жидкости (CDM) больше не занимает ценные стойко-места. Это позволяет разместить восемь систем, объединяющих 64 графических процессора NVIDIA Blackwell, в стойке 42U, и до 12 систем, объединяющих 96 графических процессоров NVIDIA Blackwell, в стойке 52U.
Новая система 10U NVIDIA HGX B200 с воздушным охлаждением имеет корпус новой конструкции с увеличенной внутренней высотой для размещения восьми графических процессоров 1000 Вт TDP Blackwell. До 4 новых систем 10U с воздушным охлаждением могут быть установлены и полностью интегрированы в стойку той же плотности, что и предыдущее поколение, обеспечивая при этом увеличение в 15 раз логического вывода и 3-кратную производительность обучения.