[Перевод] Дезагрегированный инференс LLM в Kubernetes: префилл, декодирование и планирование подов
С ростом сложности рабочих нагрузок инференса больших языковых моделей (LLM) единый монолитный процесс обслуживания упирается в свои пределы. У префил…