Каждая вторая корпорация в 2026 году обсуждает «свой ChatGPT для бизнеса». Большинство таких обсуждений рассыпаются на этапе «а сколько это стоит?». Разберём, из чего реально состоит AI-инфраструктура и почему GPU — не самая дорогая её часть.
Что изменилось на рынке памяти
Главная проблема российских AI-проектов в 2026 — не GPU как таковые. Это глобальный дефицит DRAM. AI-кластеры по всему миру скупают всю производственную мощность Hynix, Samsung и Micron. ЦОД и AI-инфраструктура создают такой спрос на DRAM и NAND, что цены толкаются вверх по всему миру независимо от санкций.
Для российских проектов это накладывается на ограничения параллельного импорта — с 27 мая 2026 года Samsung, Kingston, SanDisk, Transcend исключены из перечня. SSD Samsung 870 EVO к маю 2026 уже стоил ~20 тыс. рублей за 1 ТБ, и это ещё «до основной волны» дефицита.
Серверная DRAM (RDIMM, LRDIMM) — в большем дефиците, чем потребительская. AI-сервер на 8 GPU H200 требует как минимум 2 ТБ серверной памяти. Закладывать заказ нужно на 4–6 месяцев вперёд.
Для российских проектов это накладывается на ограничения параллельного импорта — с 27 мая 2026 года Samsung, Kingston, SanDisk, Transcend исключены из перечня. SSD Samsung 870 EVO к маю 2026 уже стоил ~20 тыс. рублей за 1 ТБ, и это ещё «до основной волны» дефицита.
Серверная DRAM (RDIMM, LRDIMM) — в большем дефиците, чем потребительская. AI-сервер на 8 GPU H200 требует как минимум 2 ТБ серверной памяти. Закладывать заказ нужно на 4–6 месяцев вперёд.
GPU: что доступно к 2026
NVIDIA H100/H200/B200 — официально недоступны для прямой поставки в Россию. Через параллельный импорт — возможны, но с большими сроками, без вендорской поддержки и с риском «прилёта» санкций к посредникам. Стоимость одной H200 на параллельном рынке — миллионы рублей за карту, готовый сервер на 8 H200 — десятки миллионов.
Huawei Ascend 910C — главная альтернатива NVIDIA для китайских и российских проектов. Производительность в инференсе сопоставима с H100. Доступность через китайских поставщиков лучше, но проектирование требует учёта особенностей CANN-стека вместо CUDA.
AMD Instinct MI300X — альтернатива, доступна через серые каналы, требует адаптации под ROCm.
Moore Threads — китайские GPU, набирающие популярность. Ниже по производительности на топовых задачах, но более доступны.
Huawei Ascend 910C — главная альтернатива NVIDIA для китайских и российских проектов. Производительность в инференсе сопоставима с H100. Доступность через китайских поставщиков лучше, но проектирование требует учёта особенностей CANN-стека вместо CUDA.
AMD Instinct MI300X — альтернатива, доступна через серые каналы, требует адаптации под ROCm.
Moore Threads — китайские GPU, набирающие популярность. Ниже по производительности на топовых задачах, но более доступны.
Что ещё в AI-сервере, кроме GPU
Полный AI-сервер на 8 GPU состоит из нескольких компонентов, каждый из которых играет роль.
CPU — обычно два процессора, Intel Xeon или AMD EPYC. Не для основных вычислений (это GPU), а для подготовки данных, обслуживания I/O и оркестрации. EPYC Venice и Xeon 6 в 2026 — типовой выбор для high-end AI.
Память — 2–8 ТБ серверной DRAM на каждый узел. Здесь сейчас узкое место с поставками.
Локальное хранилище — несколько NVMe SSD на ёмкость 30–100 ТБ для дата-наборов и чекпойнтов модели.
Сетевая инфраструктура — InfiniBand HDR/NDR (200–400 Гбит/с) или Ethernet 200/400G с RDMA. Для распределённого обучения латентность между узлами кластера критична — обычная Ethernet 100G не годится.
Охлаждение — жидкостное (D2C или immersion) почти обязательно для серверов с TDP > 5 кВт. Воздухом такие плотности уже не вывести.
Электропитание — отдельные стойки на 30–50 кВт. Не каждый ЦОД готов к таким нагрузкам без модернизации.
CPU — обычно два процессора, Intel Xeon или AMD EPYC. Не для основных вычислений (это GPU), а для подготовки данных, обслуживания I/O и оркестрации. EPYC Venice и Xeon 6 в 2026 — типовой выбор для high-end AI.
Память — 2–8 ТБ серверной DRAM на каждый узел. Здесь сейчас узкое место с поставками.
Локальное хранилище — несколько NVMe SSD на ёмкость 30–100 ТБ для дата-наборов и чекпойнтов модели.
Сетевая инфраструктура — InfiniBand HDR/NDR (200–400 Гбит/с) или Ethernet 200/400G с RDMA. Для распределённого обучения латентность между узлами кластера критична — обычная Ethernet 100G не годится.
Охлаждение — жидкостное (D2C или immersion) почти обязательно для серверов с TDP > 5 кВт. Воздухом такие плотности уже не вывести.
Электропитание — отдельные стойки на 30–50 кВт. Не каждый ЦОД готов к таким нагрузкам без модернизации.
Сколько стоит реальный проект
Грубая оценка для типового AI-сервера на 8 GPU топового класса в 2026 году:
• Сервер с 8 GPU H200 или Ascend 910C — десятки миллионов рублей за единицу
• Сетевая инфраструктура InfiniBand для кластера — единицы миллионов на узел
• СХД для дата-наборов — несколько миллионов
• Жидкостное охлаждение для зала — миллионы рублей на стойку
• Электроподготовка и системы UPS — отдельная статья бюджета
Минимальный «осмысленный» AI-кластер для обучения средних моделей — 4–8 серверов, что выводит общий CAPEX в сотни миллионов рублей.
Для большинства российских корпоративных задач (внутренний чат-бот, поиск по корпоративной базе знаний, ассистент в работе) такой кластер избыточен. Достаточно одного-двух серверов на 4–8 GPU и доступ к существующим открытым моделям с дообучением (fine-tuning).
• Сервер с 8 GPU H200 или Ascend 910C — десятки миллионов рублей за единицу
• Сетевая инфраструктура InfiniBand для кластера — единицы миллионов на узел
• СХД для дата-наборов — несколько миллионов
• Жидкостное охлаждение для зала — миллионы рублей на стойку
• Электроподготовка и системы UPS — отдельная статья бюджета
Минимальный «осмысленный» AI-кластер для обучения средних моделей — 4–8 серверов, что выводит общий CAPEX в сотни миллионов рублей.
Для большинства российских корпоративных задач (внутренний чат-бот, поиск по корпоративной базе знаний, ассистент в работе) такой кластер избыточен. Достаточно одного-двух серверов на 4–8 GPU и доступ к существующим открытым моделям с дообучением (fine-tuning).
Альтернатива: облако вместо собственного железа
В 2026 году российские облачные провайдеры (VK Cloud, Yandex Cloud, Selectel, Cloud.ru) предлагают GPU-инстансы с почасовой оплатой. Для прототипирования, обучения небольших моделей или нагрузок с высокой неравномерностью облако часто оказывается дешевле собственного железа.
Чёткий критерий — утилизация. Если GPU будут реально работать > 70% времени в среднем, собственная инфраструктура выгоднее. Если меньше — облако оптимальнее.
Чёткий критерий — утилизация. Если GPU будут реально работать > 70% времени в среднем, собственная инфраструктура выгоднее. Если меньше — облако оптимальнее.
Как мы помогаем
ОЛЛИ ИТ помогает с AI-инфраструктурными проектами: подбор серверов (H3C UniServer R5500 G6/G7, Inspur, Sugon с GPU), проектирование сети InfiniBand и жидкостного охлаждения, расчёт TCO «собственный кластер vs облако».
Если у вас есть задача по AI (обучение, инференс, корпоративный ChatGPT-аналог) — пришлите параметры на zakaz@olly.ru. Не будем продавать «топовый кластер», если задача решается двумя GPU.
Если у вас есть задача по AI (обучение, инференс, корпоративный ChatGPT-аналог) — пришлите параметры на zakaz@olly.ru. Не будем продавать «топовый кластер», если задача решается двумя GPU.