RU

Из чего состоит GPU-кластер: обзор серверов с L40S, A16 и AMD EPYC на платформе mClouds

Привет, Хабр! Мы облачный провайдер mClouds, и у нас работает GPU-платформа с видеокартами NVIDIA L40S , A16 и другими. Задействуется для задач AI-раз…

серверцодnvidiagpuвидеокартыdellamd epycоблачный сервервиртуализацияработа с данными
Habr
RU

[Перевод] Дезагрегированный инференс LLM в Kubernetes: префилл, декодирование и планирование подов

С ростом сложности рабочих нагрузок инференса больших языковых моделей (LLM) единый монолитный процесс обслуживания упирается в свои пределы. У префил…

vk cloudllmkubernetesinferencegpunvidiaдезагрегированный инференсоркестрацияавтомасштабированиепланирование подов
Habr
RU

Экономия GPU-часов в 2,5 раза, уход ИИ в бэкенд и новые стандарты агентских систем: ML-дайджест

Пока инфо-бизнесмены продают очередные курсы по промпт-инжинирингу, в индустрии пересобирают саму архитектуру ИИ-систем. Главные вызовы сегодня л…

selectelLLMaimlискусственный интеллектдайджестжелезо и софтnvidiaamdsambanova
Habr
RU

Обзор серверного ускорителя NVIDIA Tesla V100 16 Gb в корпусе от RTX 4090: Часть 3 — Запуск локальных моделей ИИ

Обзор серверного ускорителя NVIDIA Tesla V100 16 Gb в корпусе от RTX 4090: Часть 3 - Запуск локальных моделей ИИ Читать далее

nvidianvidia teslav100видеокарты для нейросетейвидеокартынейросетиllm-моделиииии моделиискуственный интеллект
Habr