RU

Из чего состоит GPU-кластер: обзор серверов с L40S, A16 и AMD EPYC на платформе mClouds

Привет, Хабр! Мы облачный провайдер mClouds, и у нас работает GPU-платформа с видеокартами NVIDIA L40S , A16 и другими. Задействуется для задач AI-раз…

серверцодnvidiagpuвидеокартыdellamd epycоблачный сервервиртуализацияработа с данными
Habr
RU

[Перевод] Дезагрегированный инференс LLM в Kubernetes: префилл, декодирование и планирование подов

С ростом сложности рабочих нагрузок инференса больших языковых моделей (LLM) единый монолитный процесс обслуживания упирается в свои пределы. У префил…

vk cloudllmkubernetesinferencegpunvidiaдезагрегированный инференсоркестрацияавтомасштабированиепланирование подов
Habr