RU

Работает ли Caveman? Тестируем модный скилл для экономии токенов

Недавно копайлот перешёл на новую тарификацию, из-за которой я упёрся в месячные лимиты буквально за первую рабочую неделю. В рабочих чатиках все стал…

cavemanэкономия токеновLLMClaudeAI-агентыGitHub starsнакрутка звёздCopilotбенчмаркскам
Habr
RU

Как я мерил точность ИИ в распознавании еды: бенчмарк, LLM-as-judge и баг с варёной гречкой

Строю приложение для подсчёта калорий по фото. Пользователь снимает тарелку, модель определяет блюдо, считает КБЖУ. Идея не новая, но мне важно, чтобы…

LLMбенчмаркраспознавание едыcomputer visionRAGGeminiподсчёт калорийLLM-as-judgeоценка качества моделейнутриенты
Habr
RU

Whisper или GigaAM для русского ASR в продакшене: три ловушки бенчмарка, которые перевернут ваши выводы

Полгода назад мы публиковали статью про то, как получили 3.3% WER для русского ASR с GigaAM. Замеры шли на пяти TTS-фрагментах из аудиокниг, что подтв…

распознавание речиASRWhisperGigaAMWERfaster-whisperбенчмаркfine-tuningрусский ASRоффлайн-распознавание
Habr
RU

Калькулятор VRAM для локальных LLM: Какие модели ИИ запустятся у вас на компьютере?

Когда я начал ковыряться с локальными LLM, главная боль была не в установке моделей, а в понимании, что вообще влезет в моё железо. Документация Huggi…

LLMVRAMllama.cppлокальные моделиквантованиеKV cacheGQAбенчмаркGPU
Habr
RU

Новый бенчмарк по кодингу для LLM ProgramBench: 9 топ моделей, 200 задач, 248 тысяч тестов. Полностью решённых — ноль

200 задач. 248 тысяч тестов. Девять моделей, среди них всё свежее: Opus 4.7, GPT 5.4, Gemini 3.1 Pro, Sonnet 4.6. На SWE-bench те же модели берут 70 %…

ProgramBenchбенчмаркLLMкодинг-агентыSWE-benchvibe-codingopus 4.7GPT-5.4
Habr
RU

Тайна подвальной PlayStation 5 за 7.000 рублей с Ozon

Порой на маркетплейсах можно найти довольно интересные и диковинные устройства от небольших производств в Китае. Ранее в блоге я часто рассказывал о т…

bodyawm_ништячкиlzakmrконсолигаджетыfunpayгеймингретро-консолиэмуляторыбенчмарктесты