RU

[Перевод] Дезагрегированный инференс LLM в Kubernetes: префилл, декодирование и планирование подов

С ростом сложности рабочих нагрузок инференса больших языковых моделей (LLM) единый монолитный процесс обслуживания упирается в свои пределы. У префил…

vk cloudllmkubernetesinferencegpunvidiaдезагрегированный инференсоркестрацияавтомасштабированиепланирование подов
Habr
RU

Экономия GPU-часов в 2,5 раза, уход ИИ в бэкенд и новые стандарты агентских систем: ML-дайджест

Пока инфо-бизнесмены продают очередные курсы по промпт-инжинирингу, в индустрии пересобирают саму архитектуру ИИ-систем. Главные вызовы сегодня л…

selectelLLMaimlискусственный интеллектдайджестжелезо и софтnvidiaamdsambanova
Habr
RU

Обзор серверного ускорителя NVIDIA Tesla V100 16 Gb в корпусе от RTX 4090: Часть 3 — Запуск локальных моделей ИИ

Обзор серверного ускорителя NVIDIA Tesla V100 16 Gb в корпусе от RTX 4090: Часть 3 - Запуск локальных моделей ИИ Читать далее

nvidianvidia teslav100видеокарты для нейросетейвидеокартынейросетиllm-моделиииии моделиискуственный интеллект
Habr
RU

Великий парадокс VRAM: почему мы платим миллионы за память, чтобы делать всё, лишь бы ей не пользоваться

Главный страх любого инженера ошибка  CUDA Out of Memory . Мы выстраиваемся в очереди за H200 на 140 ГБ. Но как только мы спускаемся с уровня Pyt…

нейронные сетиgpunvidiavramтрансформеры
Habr
RU

Чего ждать от нейронного рендеринга, и так ли плох DLSS 5

Мартовский анонс DLSS 5 стал настоящей лакмусовой бумажкой. Вся «аналитика» так называемых лидеров мнений сводилась к сбору фактов и мнений под заране…

dlss 5dlssnvidiaнейросетиграфика реального времениигровая графика3d-графика
Habr