RU

Cколько железа нужно ИИ-агенту? Как мы считали ресурсы для on-premise LLM и почему калькуляторы ошиблись в 5 раз

На связи Сергей Смирнов, AI-инженер и основатель LLMStart.ru. Один из самых частых вопросов от бизнеса: «Сколько и какого железа нужно, чтобы разверну…

llmaigpuon-premiseagentperformancetpsttfttokens
Habr
RU

GPU без магии: что важно знать инженеру перед выбором ускорителя

Если вы технарь и работаете с инфраструктурой, то регулярно слышите слова GPU, HBM, NVLink, Tensor Cores, FP8, PCIe и тому подобное. Термины вроде зна…

gpugpu-ускорителиgpu computinggpupassthroughвыделенные серверынейросетиmlдата-центрыselectelсетевые технологии
Habr
RU

Тестируем выделенный L40S и vGPU на 16 ГБ по производительности (llama.cpp, ComfyUI)

Сегодня в интернете какой только нет информации об искусственном интеллекте или его применении в разных сферах. Можно сказать, что он уже плотно вошел…

gpuvgpullmllama.cppнейросетиcomfyuivdsпроизводительностьтестированиеfirstvds
Habr
RU

Из чего состоит GPU-кластер: обзор серверов с L40S, A16 и AMD EPYC на платформе mClouds

Привет, Хабр! Мы облачный провайдер mClouds, и у нас работает GPU-платформа с видеокартами NVIDIA L40S , A16 и другими. Задействуется для задач AI-раз…

серверцодnvidiagpuвидеокартыdellamd epycоблачный сервервиртуализацияработа с данными
Habr
RU

[Перевод] Дезагрегированный инференс LLM в Kubernetes: префилл, декодирование и планирование подов

С ростом сложности рабочих нагрузок инференса больших языковых моделей (LLM) единый монолитный процесс обслуживания упирается в свои пределы. У префил…

vk cloudllmkubernetesinferencegpunvidiaдезагрегированный инференсоркестрацияавтомасштабированиепланирование подов
Habr
RU

[Перевод] Масштабирование LLM: от одного чипа до ЦОДа. Глава 3. Траснформеры

Это продолжение цикла статей о масштабировании тренировки и инференса LLM. Предыдущая статья А теперь перейдем к чему-то более практическому, а именно…

aimlgpugpu вычислениятрансформерыанализ и проектирование систем
Habr