Programming — Tech News

All topics AI agents ai api architecture automation aws beginners career claude database devchallenge devops javascript learning llm machinelearning mcp opensource performance productivity programming python react rust security showdev tutorial typescript webdev

All EN RU

Как я ускорил dependency injection в Python в 130 раз: от рефлексии до компиляции графа

«Контейнер для DI — это лишний оверхед, передай зависимость руками и не выдумывай». Я тоже так считал, пока не замерил: наивный контейнер резолвил тип…

python оптимизация производительности профилирование dependency injection метапрограммирование кодогенерация бенчмарк cpython

Как я мерил точность ИИ в распознавании еды: бенчмарк, LLM-as-judge и баг с варёной гречкой

Строю приложение для подсчёта калорий по фото. Пользователь снимает тарелку, модель определяет блюдо, считает КБЖУ. Идея не новая, но мне важно, чтобы…

LLM бенчмарк распознавание еды computer vision RAG Gemini подсчёт калорий LLM-as-judge оценка качества моделей нутриенты

1C Code Bench — бенчмарк для оценки способности LLM писать код на 1С

В эпоху бума больших языковых моделей (LLM) возникает вопрос: насколько хорошо современные LLM пишут код на платформе 1С:Предприятие? Для объективной …

1с бенчмарк

MTP у Qwen3.6 в llama.cpp обещает ×2 по скорости. Я прогнал ту же модель через своего агента — и получил обратное

Привет, Хабр. Меня зовут Лазутин Алексей, я  не профессиональный разработчик . SEO, аудиты сайтов, куча рутины с CSV, curl, отчётами для программ…

локальные llm qwen mtp lm studio бенчмарк агенты tool calling

Новый бенчмарк по кодингу для LLM ProgramBench: 9 топ моделей, 200 задач, 248 тысяч тестов. Полностью решённых — ноль

200 задач. 248 тысяч тестов. Девять моделей, среди них всё свежее: Opus 4.7, GPT 5.4, Gemini 3.1 Pro, Sonnet 4.6. На SWE-bench те же модели берут 70 %…

ProgramBench бенчмарк LLM кодинг-агенты SWE-bench vibe-coding opus 4.7 GPT-5.4

Бенчмарк 7 эмбеддингов и 4 реранкеров на корпусе судебной практики

Привет, Хабр. Это мой первый пост здесь, поэтому пара слов о себе. Я практикующий юрист, 8+ лет практики, последние годы - в производственном секторе.…

RAG embeddings эмбеддинги реранкер reranker nDCG информационный поиск юридический ИИ USER2-base бенчмарк