Tech News — Latest News

All EN RU

Полез в исходники vLLM, чтобы понять, почему один символ убивает prompt caching

В первой части я вывел одно правило и предложил жить по нему: стабильное в начало, изменчивое в хвост , один символ в системном промпте обнуляет весь …

prompt caching KV-cache prefix caching PagedAttention vLLM LLM инференс LLM GPU prefill оптимизация

Я устал писать одноразовые скрипты для бенчмарков LLM и собрал харнесс, который сам считает Pareto-front

Неважно, где ты гоняешь инференс: в проде на vLLM под нагрузкой или в локалке на llama.cpp, пытаясь втиснуть Llama-3 в 4 ГБ видеопамяти — вопрос всегд…

LLM инференс бенчмаркинг vLLM llama.cpp метрики воспроизводимость энергоэффективность производительность gpu

[Перевод] Нехватка CUDA-памяти при обучении с GRPO: как перестать гадать и начать считать

Ошибка CUDA out of memory при обучении LLM обычно превращается в бесконечный цикл случайных правок: уменьшили batch size, урезали sequence length, сни…

NLP LLM GRPO обучение с подкреплением CUDA out of memory vLLM оптимизация GPU памяти дообучение моделей LoRA PyTorch

Архитектура AI-сервисов: почему монолит убивает latency и GPU

Ваш AI‑чат или автокомплит тормозит при 50 запросах в секунду? Монолит убивает GPU и латенси? В этом туториале — реальная арх…

AI-сервисы LLM инференс high-load latency GPU vLLM SGLang continuous batching admission control

Как мы собрали локальный AI-сервер на 4× RTX 4090 с водянкой — кейс для крупного клиента

Авантюра на 4× RTX 4090, два блока питания и водяное охлаждение - машину, которую мы собрали для крупного клиента, еле-еле подняли вдвоём. История о т…

RTX 4090 vLLM on-premise локальный AI сервер локальный ИИ сервер водяное охлаждение LLM inference GPU сервер речевая аналитика self-hosted LLM

Почему self-hosted LLM падает в проде

Привет! Меня зовут Андрей Пахомов, я разработчик в AI Platform Битрикс24. Сегодня расскажу, почему self-hosted LLM ломается в проде, где на самом деле…

self-hosted LLM LLM в продакшене vLLM observability мониторинг LLM