RU

[Перевод] Дезагрегированный инференс LLM в Kubernetes: префилл, декодирование и планирование подов

С ростом сложности рабочих нагрузок инференса больших языковых моделей (LLM) единый монолитный процесс обслуживания упирается в свои пределы. У префил…

vk cloudllmkubernetesinferencegpunvidiaдезагрегированный инференсоркестрацияавтомасштабированиепланирование подов
Habr
RU

Оркестрация runner-ов на Nomad

Некоторое время назад мы столкнулись с типовой проблемой очередей при исполнении пайплайнов. Задачи упирались друг в друга, мешая выполнять операции п…

devopsnomadgitlab-runnerоркестрацияiachashicorpсистемное администрированиеdockerмикросервисыpython
Habr