RU

MTP у Qwen3.6 в llama.cpp обещает ×2 по скорости. Я прогнал ту же модель через своего агента — и получил обратное

Привет, Хабр. Меня зовут Лазутин Алексей, я  не профессиональный разработчик . SEO, аудиты сайтов, куча рутины с CSV, curl, отчётами для программ…

локальные llmqwenmtplm studioбенчмаркагентыtool calling
Habr
RU

ИИ‑спасатель в кармане: как мы сделали агента для помощи при ЧС, который работает без интернета

Представьте: вы в офисе, срабатывает пожарная сигнализация. Что вы делаете? Идёте к эвакуационному плану на стене? Пытаетесь вспом…

ии-агентыfluttergigachatсберqwen
Habr
RU

Как использовать Qwen3.7-Max и Grok Build 0.1 для ИИ-агентов в России

20 мая вышло сразу две модели, на которые стоит обратить внимание. Alibaba объявила Qwen3.7-Max, а xAI тихо выложила на OpenRouter Grok Build 0.1. Обе…

ии-агентысоздать ии-агентаqwenqwen3.7-maxgrokGrok Build 0.1как использовать в Россииискусственный интеллектавтоматизация бизнесанейросети для бизнеса
Habr
RU

Прогнал семь LLM через свой русский спортивный бенчмарк. Базовой моделью всё равно оставляю Gemma 4 31B

Прогнали семь LLM через свой русский спортивный бенчмарк. Топовые модели closed-source выигрывают 1.5-1.7 балла. Базовой моделью всё равно остаётся Ge…

llmбенчмаркgemmaqwenopenrouterрусский языкdorasftспортllm-judge
Habr
RU

Qwen3.6 MTP весит на +0.3 Гб больше, а даёт ускорение в ~2 раза. С 60 t/s до 130 t/s для Qwen3.6 27B без искажений

В llama.cpp добавили поддержку MTP Qwen3.6. Дополнительные слои Multi-Token Prediction позволяют сгенерировать сразу несколько токенов за 1 проход, чт…

искусственный интеллектmtpllama.cppqwenqwen3.6
Habr
RU

Кириллица в LLM: почему русский язык в нейросетях стоит дороже и работает медленнее

Когда вы пишете запрос в ChatGPT или другую нейросеть, она не работает с буквами или словами — она режет ваш текст на&nb…

llmтокенизациянейросетилокальный ииself-hostedкириллицаqwengigachatllamayandexgpt
Habr