Цены на оперативную память взлетели как ракета, и виной тому — ненасытный аппетит искусственного интеллекта. Тот самый ИИ, который пишет тексты и генерирует картинки, оказался пожирателем аппаратных ресурсов, и за его аппетиты сейчас платим мы все. Крупнейшие производители, такие как Samsung, SK Hynix и Micron, бросили все силы на выпуск не обычной памяти для ПК, а специализированной — для дата-центров. На обычных пользователей мощностей почти не остаётся, что и вызвало резкий рост цен и дефицит на рынке.
Чтобы понять, почему ИИ так жаден до памяти, нужно заглянуть в «кухню» его работы. Представьте, что большая языковая модель — это гигантский завод по переработке данных. Её долгосрочная память — это все знания, полученные при обучении, «вшитые» в миллиарды параметров модели. А оперативная память — это конвейер, который держит в уме ваш текущий запрос, историю диалога и промежуточные вычисления, чтобы выдать осмысленный ответ.
Для разных задач в этом «заводе» используются разные типы памяти, образующие сложную иерархию:
1. HBM (High Bandwidth Memory) — «Спортивный автомобиль» для ИИ
Это самый быстрый и дорогой тип памяти, который является сердцем GPU-ускорителей (например, NVIDIA H100, AMD MI300). HBM — это не отдельные планки, а стопка (3D-память) из нескольких чипов, которые упакованы в один корпус с процессором. Это решение кардинально увеличивает пропускную способность (bandwidth) — скорость, с которой процессор может «общаться» с памятью.
Задача: «кормить» тысячи вычислительных ядер графического процессора данными без простоев. В задачах обучения нейросетей, где происходят триллионы операций в секунду, любая задержка в поставке данных оборачивается часами потерянного времени. Если обычная память DDR5 — это грузовик, который возит данные по многополосному шоссе, то HBM — это сверхзвуковой истребитель, который доставляет их мгновенно.
2. ОЗУ для ЦПУ (DDR DRAM) — «Дирижёр» оркестра
Пока GPU с его HBM выполняет основную вычислительную работу, центральный процессор (CPU) сервера выступает в роли дирижера. Он управляет всем процессом: загружает данные с дисков, готовит их для GPU, управляет задачами и сетью. Для этого ему нужна своя, очень надежная оперативная память — обычно в виде RDIMM (Registered DIMM) или LRDIMM (Load Reduced DIMM).
Задача: хранить операционную систему, само приложение для обучения или инференса, а также буферизовать огромные объемы данных, которые готовятся к отправке в GPU. Современные серверы для ИИ могут иметь терабайты такой памяти.
Почему её тоже много? Современные нейросети работают с контекстом в миллионы токенов (эквивалент тысяч страниц текста). Весь этот объем данных должен быть загружен в быстродоступную память сервера, прежде чем GPU начнет его обрабатывать.
3. SRAM (Static RAM) — «Сверхбыстрая памятка» внутри чипа
Это самая быстрая память, которая находится прямо на кристалле процессора или GPU (в кеше). Она очень дорогая и малой емкости, но невероятно быстрая.
Задача: хранить самые «горячие», часто используемые данные и инструкции, чтобы ядра процессора имели к ним мгновенный доступ. В новых архитектурах, подобных Cerebras, огромные объемы SRAM используются для хранения всей модели прямо на чипе, что устраняет задержки при обращении к внешней памяти.
Вот как выглядит эта иерархия в работе одного запроса к большой языковой модели:
Этап обработки. Какой тип ОЗУ задействован. Его роль.
1. Приём запроса. ОЗУ сервера (DDR DRAM). Сервер принимает ваш запрос, загружает модель нейросети из хранилища и готовится к работе.
2. Подготовка контекста. ОЗУ сервера (DDR DRAM). В память подгружается вся история вашего диалога (контекст) и текущий запрос.
3. Вычисления на GPU. HBM (на GPU). GPU берет данные из своей сверхбыстрой HBM, где хранятся параметры модели и контекст, и начинает генерировать ответ.
4. Внутренняя работа чипа. SRAM (кеш на CPU/GPU). Микрооперации и самые частые данные кешируются прямо на кристалле для максимальной скорости.
Именно эта сложная, многоуровневая и дорогая система памяти позволяет ИИ работать быстро и эффективно. Спрос на все её компоненты — от HBM до серверной DDR5 — и создал тот самый дефицит, который бьет по карманам обычных пользователей.
В условиях кризиса компании ищут обходные пути: консолидация заказов для оптовых скидок, ревизия парка оборудования и апгрейд существующих серверов вместо покупки новых. Рассматривается и покупка рефурбишированного оборудования с гарантией как способ сэкономить.
Пока мировая индустрия одержима искусственным интеллектом, оперативная память будет оставаться дорогим и дефицитным товаром. Производители работают на пределе, но не спешат строить новые заводы, опасаясь «перегрева» рынка. Таким образом, развитие ИИ имеет и свою обратную, очень дорогую сторону для всех, кто пользуется обычными компьютерами.