Aivres KR6288 — первый сервер NVIDIA HGX H200, который мы рассматриваем. H200 оснащен графическими процессорами Hopper нового поколения. В результате, этот сервер 6U предназначен для размещения двух процессоров, 32 модулей DIMM, девяти или более сетевых адаптеров 400G и восьми графических процессоров с общей памятью HBM3e емкостью более 1,1 ТБ. С 2016 по 2017 год мы рассматриваем серверы с 8 графическими процессорами для каждого поколения, поэтому мы с нетерпением ждем запуска нашей серии H200.
Так как это первый графический процессор NVIDIA HGX H200 H200 8 из трех, которые мы рассматриваем, у нас есть видео на этот раз. У нас также есть кое-что немного другое, так как я хотел бы вдаваться в вопрос «почему» для этих платформ во многих случаях. Относитесь к этому видео как к руководству по тому, как развиваются дела с этим классом серверов ИИ:
Как всегда, мы рекомендуем смотреть его на отдельной вкладке, в браузере или приложении для наилучшего просмотра. Мы также не купили этот сервер, потому что он слишком дорог для нас для покупки и обзора. Вместо этого Aivres одалживает нам сервер, чтобы мы могли провести обзор. Мы должны сказать, что он спонсируется. Вы также можете заметить, что мы делали фотографии и закадровые материалы на втором наборе, а не на обычном наборе фотографий, из-за того, насколько велика эта система. Хотя я сторонник стеклянных или деревянных столов для наших фотографий, мы вытаскиваем движущееся одеяло, когда система весит так много.
Внешний обзор Aivres KR6288
Передняя часть системы 2U почти полностью связана с воздушным потоком.
На левом ухе стойки у нас есть кнопка питания и светодиоды состояния.
Кроме того, у нас есть восемь слотов для 2,5-дюймовых U.2 SSD.
Ниже приведена объединительная плата системы хранения данных, установленная в сервере.
У нас есть порт VGA и два порта USB 3 на правом ушке стойки. Эти серверы выделяют много тепла, поэтому подключение KVM-переключателей в холодных коридорах приятно с точки зрения обслуживания.
Нижняя секция предназначена для размещения подсистемы графического процессора NVIDIA HGX H200 8. Мы сосредоточимся на этом после нашего внешнего обзора. Aivres имеет промежуточную плату, предназначенную для обеспечения передачи данных и питания для массивной вычислительной подсистемы графического процессора. Вы также можете видеть, что этот сервер имеет конструкцию лотка, что позволяет напрямую получить доступ к графическим процессорам. Графические процессоры могут выйти из строя и потребовать замены. Ведущие конструкции этих серверов имеют прямой доступ к графическим процессорам через лотки, что значительно ускоряет обслуживание, что является важным показателем при такой высокой стоимости этих систем.
Еще одним ключевым аспектом этой конструкции является обеспечение четких путей воздушного потока, поскольку сборка HGX H200 с 8 графическими процессорами может потреблять более 5,5 кВт без охлаждения. Вот Kioxia CM7, которую вы можете хорошо видеть через отверстия для воздушного потока в средней плоскости.
Поскольку многим еще предстоит это увидеть, мы сделаем целый раздел о шасси NVIDIA HGX H200 8 GPU. Он сидит на рельсах, что помогает ему легко вставляться в основное шасси.
В левом верхнем углу расположены четыре низкопрофильных слота для карт PCIe Gen5 x16. Здесь у нас есть набор из четырех карт 400G NVIDIA ConnectX-7 InfiniBand.
В центральной части мы получаем слоты для карт полной высоты и наш задний ввод/выход. Здесь установлен DPU NVIDIA BlueField-3 для нашей сети север-юг. Для заднего ввода-вывода имеется интерфейс управления, два порта USB 3 и порт VGA. Опять же, большинству потребуется доступ к KVM на передней панели.
Вы можете видеть, что лоток ввода-вывода снимается с помощью двух рычагов/защелок под задним блоком ввода-вывода.
Справа мы видим еще четыре слота для низкопрофильных карт, заполненных сетевыми картами NVIDIA ConnectX-7. В наши дни часто можно увидеть одну сетевую карту 400G на графический процессор для трафика с востока на запад и другую сетевую карту 400G, часто BlueField-3 DPU, для сетей с севера на юг.
Нижняя задняя часть сервера — это все вентиляторы, хотя многие из этих вентиляторов установлены в блоках питания.
Мы начали видеть два разных типа используемых источников питания. Один набор предназначен для выходного напряжения 12 В, необходимого для процессоров, материнской платы, сетевых адаптеров и т. д. — возможно, лучше всего это сказать для всех устройств в стандартных серверах. Другой набор предназначен для выхода 54 В для графических процессоров. Все чаще можно встретить серверы с двумя типами блоков питания, подобными этому.
При установке блок питания мощностью 3,2 кВт 12 В находится сверху, а три блока питания 54 В мощностью 2,7 кВт находятся внизу.
Такая же конфигурация существует и на правой задней панели.
Вот эти установленные блоки питания.
Эти шесть модулей двойных вентиляторов для основных вентиляторов охлаждают сборку NVIDIA HGX H200 с 8 графическими процессорами.
Вот вид на промежуточную плату сзади, к которой подключаются блоки питания и вентиляторы.
Здесь мы снова можем увидеть другую сторону этого среднего пути воздушного потока, прочитать показания измерителя мощности и увидеть твердотельный накопитель Kioxia CM7.
Для многих это будет выглядеть как сервер. Вместо этого сборка NVIDIA размещается внутри KR6288 на выдвижной подсистеме.
Для любителей номеров деталей вот маркировка NVIDIA HGX 8 GPU SXM5 141GB HBM3e AC (с воздушным охлаждением).
Со стороны системы, обращенной к системе, мы видим разъемы питания и передачи данных высокой плотности, а также густые джунгли радиаторов.
На лицевой стороне мы можем видеть огромные радиаторы, которые свободно принимают холодный поток воздуха из холодного прохода.
Снимая металлическую верхнюю крышку, есть направляющая обдува.
Как только мы уберем это, мы сможем увидеть восемь графических процессоров NVIDIA.
Если вас интересуют те четыре радиатора, которые не помечены, они предназначены для каждого из встроенных переключателей NVLink. В этом и предыдущих поколениях базовых плат NVLink Switch HGX переключатели расположены с одной стороны базовой платы. С поколением NVIDIA HGX B200 их количество уменьшится с четырех до двух, а коммутаторы сместятся к центру графических процессоров. Это помогает сократить высокоскоростные трассы через плинтус.
Со стороны разъема есть еще несколько радиаторов. Обычно они предназначены для таких вещей, как ретаймеры Astera Labs PCIe, используемые на плате.
Верхняя часть сервера во многом выглядит как очень плотная платформа 2U. На фото ниже мы будем работать справа налево. Направляющая воздушного потока над процессорами довольно прочная.
Aivres KR6288 NIC Память процессора Область 3
Забавной деталью является то, что в руководстве по воздушному потоку указаны процессоры и слоты памяти под ним.
Сняв эту направляющую воздушного потока, мы можем увидеть систему.
Aivres KR6288 Сетевая карта памяти процессора Область 1
Между материнской платой и фронтальным хранилищем находится набор из шести модулей вентиляторов. Мы оставили крышку поверх них, чтобы обеспечить структурную жесткость платформы, поскольку она не предназначена для сидения на боку.
Aivres KR6288 Верхняя перегородка для вентилятора
Эти шесть модулей вентиляторов охлаждают системное хранилище, процессоры, память, сетевые адаптеры и другие компоненты.
Процессор и память Aivres KR6288 Intel Xeon 1
Что касается процессоров, у нас есть два процессора Intel Xeon Scalable 4-го или 5-го поколения. Каждый процессор имеет восьмиканальную память и два модуля DIMM на канал, что составляет 16 модулей DIMM на процессор и 32 модуля DDR5 DIMM. Это важно, потому что при более чем 1,1 ТБ памяти HBM3e на графических процессорах для достижения соотношения DDR5 к HBM даже 2:1 требуется много модулей DIMM.
Процессор и память Aivres KR6288 Intel Xeon 2
За памятью находится двойной райзер M.2 для загрузочных SSD, поэтому ценные слоты SSD на передней панели не используются.
Aivres KR6288 Двойной подступенок для багажника M.2
Рядом с ним находятся большие кабели питания и множество кабелей MCIO, поддерживающих подключение PCIe Gen5.
Aivres KR6288 Центральное питание и MCIO 1
Линии PCIe представляют собой серьезную проблему с 8 графическими процессорами PCIe Gen5 x16, 9 сетевыми картами PCIe Gen5 x16, 8 твердотельными накопителями PCIe Gen5 x4 NVMe и другими. Как следствие, появляются переключатели PCIe.
Коммутатор Aivres KR6288 PCIe 2
Еще одно преимущество коммутаторов PCIe заключается в том, что они обеспечивают путь для связи между GPU и сетевой картой без прохождения матрицы процессора.
Коммутатор Aivres KR6288 PCIe 3
Другая проблема в такой обширной системе заключается в том, что она имеет несколько базовых плат и объединительных плат, но сигнализация PCIe Gen5 не может быть реализована. В результате кабели MCIO повсюду.
Айврес KR6288 MCIO
Вот задняя часть системы со всеми сетевыми картами.
Сетевая плата Aivres KR6288 и зона расширения 1
Вот четыре сетевые платы NVIDIA ConnectX-7 из первого набора.
Сетевая плата Aivres KR6288 и зона расширения 2
В центре у нас установлены слоты полной высоты и один DPU NVIDIA BlueField-3. В зависимости от модели, DPU BlueField-3 может потреблять до 150 Вт, поэтому, когда мы говорим, что это мощный и высокопроизводительный сервер, мы имеем в виду не только графические процессоры.
Сетевая плата Aivres KR6288 и DPU для зоны расширения BlueField 3
В центре у нас есть задние входы/выходы и дополнительные слоты.
Aivres KR6288 Задняя плата ввода-вывода и MCIO
Вот второй набор сетевых адаптеров ConnectX-7.
Сетевая карта Aivres KR6288 и зона расширения 3
Чтобы дать некоторое представление об объеме сети, у нас есть девять сетевых адаптеров 400G с общей пропускной способностью сети 3,6 Тбит/с. Если вы используете коммутатор 100GbE с 32 портами, современный сервер искусственного интеллекта имеет большую пропускную способность для одного узла, чем весь коммутатор.
Aivres KR6288 Задний
Оборудование классное, но мы также использовали его во время тестирования стоек для колокейшн, чтобы попробовать.
Производительность Aivres KR6288
За эти годы мы протестировали множество серверов с искусственным интеллектом. Существует две основные категории, в которых серверы могут прибавлять или терять производительность: охлаждение и мощность. Со стороны охлаждения зависит, смогут ли процессоры, графические процессоры, сетевые адаптеры, память и диски работать с полным уровнем производительности. Аспект мощности связан с тем, часто ли мы получаем разные уровни мощности на графических процессорах NVIDIA, иногда из-за выбора воздушного или жидкостного охлаждения. Здесь мы работаем с официальной спецификацией графического процессора мощностью 700 Вт.
Что касается графических процессоров, NVIDIA упростила получение стабильных результатов от всех поставщиков. Нам удалось запрыгнуть на облачный сервер H100 и повторно провести несколько тестов.
NVIDIA утверждает, что H200 обеспечивает на 40-50% более высокую производительность, чем H100. Это верно, когда вам требуется большая пропускная способность и емкость памяти. Вот приличный спектр тестов и результатов. Конечно, мы не использовали H200 на 1000 Вт, что оказало бы большее влияние на результаты.
В качестве предварительного просмотра у нас есть еще две системы NVIDIA HGX H200, которые мы тестируем, и все эти системы находятся в пределах низкого однозначного процента производительности друг друга на этих рабочих нагрузках, когда все графические процессоры настроены на TDP 700 Вт. Невероятно, как NVIDIA удалось создать такую относительно низкую драму.
Производительность процессора Aivres KR6288
Мы просмотрели наш сценарий быстрого тестирования и сравнили сторону Xeon с нашей эталонной платформой 2U.