AI & ML — Tech News

All EN RU

[Перевод] Самосовершенствующийся ИИ: что происходит внутри Anthropic

На протяжении большей части истории ИИ каждый шаг в его разработке делали люди. Но в Anthropic мы всё больше делегируем часть этой работы самим ИИ-сис…

рекурсивное самосовершенствование Claude Code автономные агенты бенчмарки ИИ SWE-bench производительность разработчиков Anthropic искусственный интеллект автоматизация разработки будущее программирования

Новый бенчмарк по кодингу для LLM ProgramBench: 9 топ моделей, 200 задач, 248 тысяч тестов. Полностью решённых — ноль

200 задач. 248 тысяч тестов. Девять моделей, среди них всё свежее: Opus 4.7, GPT 5.4, Gemini 3.1 Pro, Sonnet 4.6. На SWE-bench те же модели берут 70 %…

ProgramBench бенчмарк LLM кодинг-агенты SWE-bench vibe-coding opus 4.7 GPT-5.4