RU

Как я ускорил dependency injection в Python в 130 раз: от рефлексии до компиляции графа

«Контейнер для DI — это лишний оверхед, передай зависимость руками и не выдумывай». Я тоже так считал, пока не замерил: наивный контейнер резолвил тип…

pythonоптимизация производительностипрофилированиеdependency injectionметапрограммированиекодогенерациябенчмаркcpython
Habr
RU

Как я мерил точность ИИ в распознавании еды: бенчмарк, LLM-as-judge и баг с варёной гречкой

Строю приложение для подсчёта калорий по фото. Пользователь снимает тарелку, модель определяет блюдо, считает КБЖУ. Идея не новая, но мне важно, чтобы…

LLMбенчмаркраспознавание едыcomputer visionRAGGeminiподсчёт калорийLLM-as-judgeоценка качества моделейнутриенты
Habr
RU

MTP у Qwen3.6 в llama.cpp обещает ×2 по скорости. Я прогнал ту же модель через своего агента — и получил обратное

Привет, Хабр. Меня зовут Лазутин Алексей, я  не профессиональный разработчик . SEO, аудиты сайтов, куча рутины с CSV, curl, отчётами для программ…

локальные llmqwenmtplm studioбенчмаркагентыtool calling
Habr
RU

Новый бенчмарк по кодингу для LLM ProgramBench: 9 топ моделей, 200 задач, 248 тысяч тестов. Полностью решённых — ноль

200 задач. 248 тысяч тестов. Девять моделей, среди них всё свежее: Opus 4.7, GPT 5.4, Gemini 3.1 Pro, Sonnet 4.6. На SWE-bench те же модели берут 70 %…

ProgramBenchбенчмаркLLMкодинг-агентыSWE-benchvibe-codingopus 4.7GPT-5.4
Habr
RU

Бенчмарк 7 эмбеддингов и 4 реранкеров на корпусе судебной практики

Привет, Хабр. Это мой первый пост здесь, поэтому пара слов о себе. Я практикующий юрист, 8+ лет практики, последние годы - в производственном секторе.…

RAGembeddingsэмбеддингиреранкерrerankernDCGинформационный поискюридический ИИUSER2-baseбенчмарк