RU

[Перевод] Дезагрегированный инференс LLM в Kubernetes: префилл, декодирование и планирование подов

С ростом сложности рабочих нагрузок инференса больших языковых моделей (LLM) единый монолитный процесс обслуживания упирается в свои пределы. У префил…

vk cloudllmkubernetesinferencegpunvidiaдезагрегированный инференсоркестрацияавтомасштабированиепланирование подов
Habr
RU

Как мы в отделе документации создали LLM агента для автоматизированного перевода с английского на другие языки

Разбираем, как в отделе документации построили LLM-агента для автоматизированного перевода Markdown-документации. Архитектура, пайплайн, валидация, ра…

LLMавтоматизация переводатехническая документацияPythonвалидацияMarkdownOpenWebUIQwenоркестрацияhostkey
Habr
RU

Как я перестал бояться и полюбил MCP или Зачем я написал 4 MCP‑сервера и протокол для их связи

Привет! Вы знаете как это бывает — начинаешь делать одну штуку, а потом просыпаешься через неделю и понимаешь, что написал че…

MCPModel Context ProtocolTRAILClaudeAI-агентыавтоматизацияоркестрациянейросетиplaywrightJSONL