[Перевод] GPU-автоскейлинг на Kubernetes с KEDA: создание внешнего скейлера
Если вы запускаете GPU-нагрузки (графические ускорители) на Kubernetes — vLLM, Triton, обучающие задачи или более новые стеки агентного инференса, — в…
Latest DevOps news from Tech News
Если вы запускаете GPU-нагрузки (графические ускорители) на Kubernetes — vLLM, Triton, обучающие задачи или более новые стеки агентного инференса, — в…
Six months ago, my team needed to deploy DeepSeek-R1 for internal use. We have a Kubernetes cluster — like everyone does in 2026 — so I started lookin…
Prefix caching at scale: when it saves you 80% of prefill cost, and the eviction policies that quietly turn it into 5% Your chatbot deploys 70B Llama …
KV cache quantization: what FP8/INT8 K and V actually buy you, and where they break You just deployed a 70B Llama fine-tune on 8x H100s, and your serv…
У меня в углу комнаты стоит сервер с двумя Tesla V100 32GB. Они доcтались мне для другой задачи, которая отвалилась, и полгода стояли мёртвым грузом. …
From the Best GPU for LLM archive. The canonical version has interactive calculators, an up-to-date GPU comparison table, and live pricing. Three tool…