Tech News — Latest News

All EN RU

Квантование ломает вызов инструментов не так, как показывает BFCL: проверил на MCP-серверах

Как на самом деле квантование ломает вызов инструментов? Собрал бенчмарк QuantMCP, протестировав модели на 4 ГБ VRAM не на синтетике, а на реальных сх…

квантование function-calling MCP LLM бенчмарк QuantMCP деградация галлюцинации JSON-схема MCP-серверы

Маленькая модель на 0.6B держит квантование лучше, чем «крупная» на 1B: измерил деградацию function-calling на 4 ГБ VRAM

Как квантование ломает function-calling у LLM? Собрал бенчмарк QuantCall, протестировав модели на 4 ГБ VRAM. Главный инсайт: устойчивость к квантам за…

квантование function-calling Qwen3 Llama-3.2 BFCL QuantCall JSON-схема GBNF GGUF деградация модели

Всё, что вы хотели знать про локальные LLM, но боялись заинференсить

LLM может влезать в контекст и генерировать 200 tok/s, но если она не может найти нужный факт в тексте, толку от этого мало. Поэтому мы захостили 8 ло…

квантование llm бенчмарки облачная инфраструктура gpu rtx 5090 большие языковые модели

4.6-битные сети: от теории к практике. Причём здесь HardTanh?

Уже прошло два года с тех пор, как мы предложили схему 4.6-битного квантования и рассказали про нее, в том числе и на Хабре: раз и два . Вспомним, что…

нейронные сети квантование инференс низкоразрядные вычисления resnet edge ai мобильный ии HardTanh 4.6-битное квантование

[Перевод] Как оптимизировать LLM-инференс в 2026 году

Если вы в 2026 году запускаете LLM в продакшене, то почти наверняка больше всего денег тратите на инференс. Одна неоптимизированная модель размером 70…

оптимизация инференса llm в продакшене mlops vllm kv cache pagedattention prefix caching квантование спекулятивный декодинг

Четыре грабли, один вихрь и 60% на CIFAR-10 с M0+

Продолжение цикла. До этого были базовые цифры и анонс 5 архитектур. Теперь - что сломалось, как чинили, что узнали. Читать далее

TernML тернарные нейросети TinyML микроконтроллеры QAT ViT CNN GraphKAN Cortex-M0+квантование

Тернарный KAN: не баг, а фича — почему дискретные веса работают лучше

Это продолжение поста “Две нейросети по 15 КБ” - там были базовые цифры. А тут уже личная история: как делалось, что пошло не так, и что выяснилось по…

KAN Kolmogorov-Arnold Networks тернарные веса квантование QAT TinyML Edge AI MNIST регуляризация STM32

Культ квантования: почему 3 битные LLM это диагноз, а не оптимизация

Переход от FP16 к 8 битному квантованию был триумфом инженерии, позволившим запускать LLM на потребительском железе почти без потерь. Но сегодня индус…

квантование нейросети

Калькулятор VRAM для локальных LLM: Какие модели ИИ запустятся у вас на компьютере?

Когда я начал ковыряться с локальными LLM, главная боль была не в установке моделей, а в понимании, что вообще влезет в моё железо. Документация Huggi…

LLM VRAM llama.cpp локальные модели квантование KV cache GQA бенчмарк GPU