Олли Блог

Обзор Arives KR6288 Nvidia HGX H200

Aivres KR6288 Rear Assembled
Aivres KR6288 — первый сервер NVIDIA HGX H200, который мы рассматриваем. H200 оснащен графическими процессорами Hopper нового поколения. В результате, этот сервер 6U предназначен для размещения двух процессоров, 32 модулей DIMM, девяти или более сетевых адаптеров 400G и восьми графических процессоров с общей памятью HBM3e емкостью более 1,1 ТБ. С 2016 по 2017 год мы рассматриваем серверы с 8 графическими процессорами для каждого поколения, поэтому мы с нетерпением ждем запуска нашей серии H200.
Так как это первый графический процессор NVIDIA HGX H200 H200 8 из трех, которые мы рассматриваем, у нас есть видео на этот раз. У нас также есть кое-что немного другое, так как я хотел бы вдаваться в вопрос «почему» для этих платформ во многих случаях. Относитесь к этому видео как к руководству по тому, как развиваются дела с этим классом серверов ИИ:
Как всегда, мы рекомендуем смотреть его на отдельной вкладке, в браузере или приложении для наилучшего просмотра. Мы также не купили этот сервер, потому что он слишком дорог для нас для покупки и обзора. Вместо этого Aivres одалживает нам сервер, чтобы мы могли провести обзор. Мы должны сказать, что он спонсируется. Вы также можете заметить, что мы делали фотографии и закадровые материалы на втором наборе, а не на обычном наборе фотографий, из-за того, насколько велика эта система. Хотя я сторонник стеклянных или деревянных столов для наших фотографий, мы вытаскиваем движущееся одеяло, когда система весит так много.

Внешний обзор Aivres KR6288

Передняя часть системы 2U почти полностью связана с воздушным потоком.
Aivres KR6288 Front 1
На левом ухе стойки у нас есть кнопка питания и светодиоды состояния.
Aivres KR6288 Left Power Button
Кроме того, у нас есть восемь слотов для 2,5-дюймовых U.2 SSD.
Aivres KR6288 U.2 SSDs Installed
Ниже приведена объединительная плата системы хранения данных, установленная в сервере.
Aivres KR6288 Front U.2 SSD Backplane 2
У нас есть порт VGA и два порта USB 3 на правом ушке стойки. Эти серверы выделяют много тепла, поэтому подключение KVM-переключателей в холодных коридорах приятно с точки зрения обслуживания.
Aivres KR6288 Right Front VGA And USB
Нижняя секция предназначена для размещения подсистемы графического процессора NVIDIA HGX H200 8. Мы сосредоточимся на этом после нашего внешнего обзора. Aivres имеет промежуточную плату, предназначенную для обеспечения передачи данных и питания для массивной вычислительной подсистемы графического процессора. Вы также можете видеть, что этот сервер имеет конструкцию лотка, что позволяет напрямую получить доступ к графическим процессорам. Графические процессоры могут выйти из строя и потребовать замены. Ведущие конструкции этих серверов имеют прямой доступ к графическим процессорам через лотки, что значительно ускоряет обслуживание, что является важным показателем при такой высокой стоимости этих систем.
Aivres KR6288 Midplane GPU Mate
Еще одним ключевым аспектом этой конструкции является обеспечение четких путей воздушного потока, поскольку сборка HGX H200 с 8 графическими процессорами может потреблять более 5,5 кВт без охлаждения. Вот Kioxia CM7, которую вы можете хорошо видеть через отверстия для воздушного потока в средней плоскости.
Поскольку многим еще предстоит это увидеть, мы сделаем целый раздел о шасси NVIDIA HGX H200 8 GPU. Он сидит на рельсах, что помогает ему легко вставляться в основное шасси.
Aivres KR6288 NVIDIA HGX H200 8 GPU Tray
Aivres KR6288 Rear
В левом верхнем углу расположены четыре низкопрофильных слота для карт PCIe Gen5 x16. Здесь у нас есть набор из четырех карт 400G NVIDIA ConnectX-7 InfiniBand.
Aivres KR6288 NVIDIA ConnectX 7 400G Left Rear
В центральной части мы получаем слоты для карт полной высоты и наш задний ввод/выход. Здесь установлен DPU NVIDIA BlueField-3 для нашей сети север-юг. Для заднего ввода-вывода имеется интерфейс управления, два порта USB 3 и порт VGA. Опять же, большинству потребуется доступ к KVM на передней панели.
Aivres KR6288 Rear IO And Center Expansion
Вы можете видеть, что лоток ввода-вывода снимается с помощью двух рычагов/защелок под задним блоком ввода-вывода.
Справа мы видим еще четыре слота для низкопрофильных карт, заполненных сетевыми картами NVIDIA ConnectX-7. В наши дни часто можно увидеть одну сетевую карту 400G на графический процессор для трафика с востока на запад и другую сетевую карту 400G, часто BlueField-3 DPU, для сетей с севера на юг.
Aivres KR6288 NVIDIA ConnectX 7 400G Right Rear
Нижняя задняя часть сервера — это все вентиляторы, хотя многие из этих вентиляторов установлены в блоках питания.
Aivres KR6288 Rear Fans And PSUs
Мы начали видеть два разных типа используемых источников питания. Один набор предназначен для выходного напряжения 12 В, необходимого для процессоров, материнской платы, сетевых адаптеров и т. д. — возможно, лучше всего это сказать для всех устройств в стандартных серверах. Другой набор предназначен для выхода 54 В для графических процессоров. Все чаще можно встретить серверы с двумя типами блоков питания, подобными этому.
Aivres KR6288 Left Rear PSU Markings
При установке блок питания мощностью 3,2 кВт 12 В находится сверху, а три блока питания 54 В мощностью 2,7 кВт находятся внизу.
Aivres KR6288 Left Rear PSUs
Такая же конфигурация существует и на правой задней панели.
Aivres KR6288 Right Rear PSU Markings
Вот эти установленные блоки питания.
Aivres KR6288 Right Rear PSUs
Эти шесть модулей двойных вентиляторов для основных вентиляторов охлаждают сборку NVIDIA HGX H200 с 8 графическими процессорами.
Aivres KR6288 Fan Modules
Вот вид на промежуточную плату сзади, к которой подключаются блоки питания и вентиляторы.
Aivres KR6288 Midplane Fan And PSU Rear View
Здесь мы снова можем увидеть другую сторону этого среднего пути воздушного потока, прочитать показания измерителя мощности и увидеть твердотельный накопитель Kioxia CM7.
Aivres KR6288 Rear See Through To Power
Для многих это будет выглядеть как сервер. Вместо этого сборка NVIDIA размещается внутри KR6288 на выдвижной подсистеме.
Aivres KR6288 NVIDIA HGX H200 8 GPU Tray
Для любителей номеров деталей вот маркировка NVIDIA HGX 8 GPU SXM5 141GB HBM3e AC (с воздушным охлаждением).
Aivres KR6288 NVIDIA HGX H200 8 GPU Connector Side Label
Со стороны системы, обращенной к системе, мы видим разъемы питания и передачи данных высокой плотности, а также густые джунгли радиаторов.
Aivres KR6288 NVIDIA HGX H200 8 GPU Connector Side 1
На лицевой стороне мы можем видеть огромные радиаторы, которые свободно принимают холодный поток воздуха из холодного прохода.
Aivres KR6288 NVIDIA HGX H200 8 GPU Tray Front
Снимая металлическую верхнюю крышку, есть направляющая обдува.
Aivres KR6288 NVIDIA HGX H200 8 GPU With Airflow Guide
Как только мы уберем это, мы сможем увидеть восемь графических процессоров NVIDIA.
Aivres KR6288 NVIDIA HGX H200 8 GPU
Если вас интересуют те четыре радиатора, которые не помечены, они предназначены для каждого из встроенных переключателей NVLink. В этом и предыдущих поколениях базовых плат NVLink Switch HGX переключатели расположены с одной стороны базовой платы. С поколением NVIDIA HGX B200 их количество уменьшится с четырех до двух, а коммутаторы сместятся к центру графических процессоров. Это помогает сократить высокоскоростные трассы через плинтус.
Aivres KR6288 NVIDIA HGX H200 8 GPU NVLink Switches
Со стороны разъема есть еще несколько радиаторов. Обычно они предназначены для таких вещей, как ретаймеры Astera Labs PCIe, используемые на плате.
Aivres KR6288 Astera Labs PCIe Retimer Side
Верхняя часть сервера во многом выглядит как очень плотная платформа 2U. На фото ниже мы будем работать справа налево. Направляющая воздушного потока над процессорами довольно прочная.
Aivres KR6288 NIC CPU Memory Area 3
Aivres KR6288 NIC Память процессора Область 3
Забавной деталью является то, что в руководстве по воздушному потоку указаны процессоры и слоты памяти под ним.
Aivres KR6288 Airflow Guide DIMM Window Label
Aivres KR6288 Направляющая воздушного потока DIMM Оконная этикетка
Сняв эту направляющую воздушного потока, мы можем увидеть систему.
Aivres KR6288 NIC CPU Memory Area 1
Aivres KR6288 Сетевая карта памяти процессора Область 1
Между материнской платой и фронтальным хранилищем находится набор из шести модулей вентиляторов. Мы оставили крышку поверх них, чтобы обеспечить структурную жесткость платформы, поскольку она не предназначена для сидения на боку.
Aivres KR6288 Top Fan Parition
Aivres KR6288 Верхняя перегородка для вентилятора
Эти шесть модулей вентиляторов охлаждают системное хранилище, процессоры, память, сетевые адаптеры и другие компоненты.
Aivres KR6288 Intel Xeon CPU And Memory 1
Процессор и память Aivres KR6288 Intel Xeon 1
Что касается процессоров, у нас есть два процессора Intel Xeon Scalable 4-го или 5-го поколения. Каждый процессор имеет восьмиканальную память и два модуля DIMM на канал, что составляет 16 модулей DIMM на процессор и 32 модуля DDR5 DIMM. Это важно, потому что при более чем 1,1 ТБ памяти HBM3e на графических процессорах для достижения соотношения DDR5 к HBM даже 2:1 требуется много модулей DIMM.
Aivres KR6288 Intel Xeon CPU And Memory 2
Процессор и память Aivres KR6288 Intel Xeon 2
За памятью находится двойной райзер M.2 для загрузочных SSD, поэтому ценные слоты SSD на передней панели не используются.
Aivres KR6288 Dual M.2 Boot Riser
Aivres KR6288 Двойной подступенок для багажника M.2
Рядом с ним находятся большие кабели питания и множество кабелей MCIO, поддерживающих подключение PCIe Gen5.
Aivres KR6288 Center Power And MCIO 1
Aivres KR6288 Центральное питание и MCIO 1
Линии PCIe представляют собой серьезную проблему с 8 графическими процессорами PCIe Gen5 x16, 9 сетевыми картами PCIe Gen5 x16, 8 твердотельными накопителями PCIe Gen5 x4 NVMe и другими. Как следствие, появляются переключатели PCIe.
Aivres KR6288 PCIe Switch 2
Коммутатор Aivres KR6288 PCIe 2
Еще одно преимущество коммутаторов PCIe заключается в том, что они обеспечивают путь для связи между GPU и сетевой картой без прохождения матрицы процессора.
Aivres KR6288 PCIe Switch 3
Коммутатор Aivres KR6288 PCIe 3
Другая проблема в такой обширной системе заключается в том, что она имеет несколько базовых плат и объединительных плат, но сигнализация PCIe Gen5 не может быть реализована. В результате кабели MCIO повсюду.
Aivres KR6288 MCIO
Айврес KR6288 MCIO
Вот задняя часть системы со всеми сетевыми картами.
Aivres KR6288 NIC And Expansion Area 1
Сетевая плата Aivres KR6288 и зона расширения 1
Вот четыре сетевые платы NVIDIA ConnectX-7 из первого набора.
Aivres KR6288 NIC And Expansion Area 2
Сетевая плата Aivres KR6288 и зона расширения 2
В центре у нас установлены слоты полной высоты и один DPU NVIDIA BlueField-3. В зависимости от модели, DPU BlueField-3 может потреблять до 150 Вт, поэтому, когда мы говорим, что это мощный и высокопроизводительный сервер, мы имеем в виду не только графические процессоры.
Aivres KR6288 NIC And Expansion Area BlueField 3 DPU
Сетевая плата Aivres KR6288 и DPU для зоны расширения BlueField 3
В центре у нас есть задние входы/выходы и дополнительные слоты.
Aivres KR6288 Rear IO Board And MCIO
Aivres KR6288 Задняя плата ввода-вывода и MCIO
Вот второй набор сетевых адаптеров ConnectX-7.
Aivres KR6288 NIC And Expansion Area 3
Сетевая карта Aivres KR6288 и зона расширения 3
Чтобы дать некоторое представление об объеме сети, у нас есть девять сетевых адаптеров 400G с общей пропускной способностью сети 3,6 Тбит/с. Если вы используете коммутатор 100GbE с 32 портами, современный сервер искусственного интеллекта имеет большую пропускную способность для одного узла, чем весь коммутатор.
Aivres KR6288 Rear
Aivres KR6288 Задний
Оборудование классное, но мы также использовали его во время тестирования стоек для колокейшн, чтобы попробовать.

Производительность Aivres KR6288

За эти годы мы протестировали множество серверов с искусственным интеллектом. Существует две основные категории, в которых серверы могут прибавлять или терять производительность: охлаждение и мощность. Со стороны охлаждения зависит, смогут ли процессоры, графические процессоры, сетевые адаптеры, память и диски работать с полным уровнем производительности. Аспект мощности связан с тем, часто ли мы получаем разные уровни мощности на графических процессорах NVIDIA, иногда из-за выбора воздушного или жидкостного охлаждения. Здесь мы работаем с официальной спецификацией графического процессора мощностью 700 Вт.

Производительность графического процессора Aivres KR6288

Что касается графических процессоров, NVIDIA упростила получение стабильных результатов от всех поставщиков. Нам удалось запрыгнуть на облачный сервер H100 и повторно провести несколько тестов.
Aivres KR6288 NVIDIA HGX H200 8 GPU Performance
Производительность 8 графических процессоров Aivres KR6288 NVIDIA HGX H200
NVIDIA утверждает, что H200 обеспечивает на 40-50% более высокую производительность, чем H100. Это верно, когда вам требуется большая пропускная способность и емкость памяти. Вот приличный спектр тестов и результатов. Конечно, мы не использовали H200 на 1000 Вт, что оказало бы большее влияние на результаты.
В качестве предварительного просмотра у нас есть еще две системы NVIDIA HGX H200, которые мы тестируем, и все эти системы находятся в пределах низкого однозначного процента производительности друг друга на этих рабочих нагрузках, когда все графические процессоры настроены на TDP 700 Вт. Невероятно, как NVIDIA удалось создать такую относительно низкую драму.

Производительность процессора Aivres KR6288

Мы просмотрели наш сценарий быстрого тестирования и сравнили сторону Xeon с нашей эталонной платформой 2U.
Aivres KR6288 Intel Xeon CPU Performance
Производительность процессора Aivres KR6288 Intel Xeon
Это больше похоже на обычный вариант сервера, что имеет смысл, учитывая, что верхняя часть сервера по сути является сервером 2U.