Tech News — Latest News

All EN RU

Evals: что должен знать каждый AI-инженер в 2026

В июле 2025 coding-агент в Replit проигнорировал явный запрет на изменения файлов (code-freeze) и удалил production-базу – данные примерно 1200 компан…

evals LLM AI-агенты бенчмарки надёжность AI LLM-as-judge SWE-bench MLOps AI-инжиниринг тестирование

[Перевод] Самосовершенствующийся ИИ: что происходит внутри Anthropic

На протяжении большей части истории ИИ каждый шаг в его разработке делали люди. Но в Anthropic мы всё больше делегируем часть этой работы самим ИИ-сис…

рекурсивное самосовершенствование Claude Code автономные агенты бенчмарки ИИ SWE-bench производительность разработчиков Anthropic искусственный интеллект автоматизация разработки будущее программирования

Новый бенчмарк по кодингу для LLM ProgramBench: 9 топ моделей, 200 задач, 248 тысяч тестов. Полностью решённых — ноль

200 задач. 248 тысяч тестов. Девять моделей, среди них всё свежее: Opus 4.7, GPT 5.4, Gemini 3.1 Pro, Sonnet 4.6. На SWE-bench те же модели берут 70 %…

ProgramBench бенчмарк LLM кодинг-агенты SWE-bench vibe-coding opus 4.7 GPT-5.4