Testing & QA — Tech News

All EN RU

Hermes + Qwen3.6-27B: как я собрал первую линию email-поддержки

Я решил в качестве эксперимента собрать первую линию email-поддержки вокруг локальной LLM — без файн-тюнинга и попыток сразу заменить всю службу подде…

hermes qwen3.6 qwen helpdesk agent облачная инфраструктура gpu аренда gpu rtx5090 поддержка пользователей

Контекстная инженерия для слабой локальной модели: как мы делаем среднюю модель надёжной

Принято думать, что качество ИИ-агента упирается в размер модели. Но когда модель работает локально, в закрытом контуре и на ограниченном железе, брат…

llm on-premise qwen3.6 ai ai-агенты искусственный интеллект автоматизация процессов корпоративные системы low-code bpms

Тесты бюджетных сборок для ИИ до 100к рублей

Локальный ИИ не должен стоить как автомобиль. Мне стало интересно: возможен ли жизнеспособный инференс на CPU и что реально дают дешевые GPU (вроде Te…

ai ии gpt self-hosted gpu cpu llama.cpp qwen3.6 gemma4

Локальные LLM на Arch Linux и как увеличить скорость генерации в 20 раз

Приветствую всех читателей Хабра, в этой статье я хочу поделиться своим опытом в запуске локальных LLM, протестировать работоспособность инт…

arch linux llama.cpp ollama qwen3.6 gemma4 github huggingface intel arc b580

Qwen3.6 MTP весит на +0.3 Гб больше, а даёт ускорение в ~2 раза. С 60 t/s до 130 t/s для Qwen3.6 27B без искажений

В llama.cpp добавили поддержку MTP Qwen3.6. Дополнительные слои Multi-Token Prediction позволяют сгенерировать сразу несколько токенов за 1 проход, чт…

искусственный интеллект mtp llama.cpp qwen qwen3.6

Локальные LLM в реальной работе: Gemma 4, Qwen 3.6 и Qwen Coder

Привет, меня зовут Вячеслав. Я интересуюсь локальными LLM и тем, как они ведут себя в реальных задачах — не на синтетических …

llm llm-модели llama.cpp gemma4 qwen3.6 qwen opencode