Testing & QA — Tech News

RU

Внешний бенчмарк причинного recall: проверяем память ИИ-ассистента на YDB Яндекса

Коротко, о чём речь, — для тех, кто пришёл по слову «Яндекс» и предыстории не знает. Когда ИИ-ассистент помогает чинить баг, самое ценное — не сочинит…

ИИ-агенты память агента RAG бенчмарк recall графовая память эмбеддинги семантический поиск YDB воспроизводимость

RU

RUMBA: русскоязычный бенчмарк для оценки долгосрочной памяти

Память стала одной из самых востребованных функций диалоговых и агентных систем. Если пользователь регулярно обращается к ассистенту — для работы, кон…

бенчмарк память llm память rag

RU

Разрушители мИИфов – тестируем Headroom. Правда ли умная прокся может сэкономить вам токены?

Признаю: в прошлой статье про тестирование Caveman я в конце написал, что такие инструменты, как RTK, действительно, могут помочь сэкономить токены. Я…

headroom экономия токенов LLM Claude AI-агенты github бенчмарк

RU

Квантование ломает вызов инструментов не так, как показывает BFCL: проверил на MCP-серверах

Как на самом деле квантование ломает вызов инструментов? Собрал бенчмарк QuantMCP, протестировав модели на 4 ГБ VRAM не на синтетике, а на реальных сх…

квантование function-calling MCP LLM бенчмарк QuantMCP деградация галлюцинации JSON-схема MCP-серверы

RU

Работает ли Caveman? Тестируем модный скилл для экономии токенов

Недавно копайлот перешёл на новую тарификацию, из-за которой я упёрся в месячные лимиты буквально за первую рабочую неделю. В рабочих чатиках все стал…

caveman экономия токенов LLM Claude AI-агенты GitHub stars накрутка звёзд Copilot бенчмарк скам

RU

Как я мерил точность ИИ в распознавании еды: бенчмарк, LLM-as-judge и баг с варёной гречкой

Строю приложение для подсчёта калорий по фото. Пользователь снимает тарелку, модель определяет блюдо, считает КБЖУ. Идея не новая, но мне важно, чтобы…

LLM бенчмарк распознавание еды computer vision RAG Gemini подсчёт калорий LLM-as-judge оценка качества моделей нутриенты

RU

Whisper или GigaAM для русского ASR в продакшене: три ловушки бенчмарка, которые перевернут ваши выводы

Полгода назад мы публиковали статью про то, как получили 3.3% WER для русского ASR с GigaAM. Замеры шли на пяти TTS-фрагментах из аудиокниг, что подтв…

распознавание речи ASR Whisper GigaAM WER faster-whisper бенчмарк fine-tuning русский ASR оффлайн-распознавание

RU

1C Code Bench — бенчмарк для оценки способности LLM писать код на 1С

В эпоху бума больших языковых моделей (LLM) возникает вопрос: насколько хорошо современные LLM пишут код на платформе 1С:Предприятие? Для объективной …

1с бенчмарк

RU

Калькулятор VRAM для локальных LLM: Какие модели ИИ запустятся у вас на компьютере?

Когда я начал ковыряться с локальными LLM, главная боль была не в установке моделей, а в понимании, что вообще влезет в моё железо. Документация Huggi…

LLM VRAM llama.cpp локальные модели квантование KV cache GQA бенчмарк GPU

RU

Новый бенчмарк по кодингу для LLM ProgramBench: 9 топ моделей, 200 задач, 248 тысяч тестов. Полностью решённых — ноль

200 задач. 248 тысяч тестов. Девять моделей, среди них всё свежее: Opus 4.7, GPT 5.4, Gemini 3.1 Pro, Sonnet 4.6. На SWE-bench те же модели берут 70 %…

ProgramBench бенчмарк LLM кодинг-агенты SWE-bench vibe-coding opus 4.7 GPT-5.4

RU

Тайна подвальной PlayStation 5 за 7.000 рублей с Ozon

Порой на маркетплейсах можно найти довольно интересные и диковинные устройства от небольших производств в Китае. Ранее в блоге я часто рассказывал о т…

bodyawm_ништячки lzakmr консоли гаджеты funpay гейминг ретро-консоли эмуляторы бенчмарк тесты