RU

[Перевод] Самосовершенствующийся ИИ: что происходит внутри Anthropic

На протяжении большей части истории ИИ каждый шаг в его разработке делали люди. Но в Anthropic мы всё больше делегируем часть этой работы самим ИИ-сис…

рекурсивное самосовершенствованиеClaude Codeавтономные агентыбенчмарки ИИSWE-benchпроизводительность разработчиковAnthropicискусственный интеллектавтоматизация разработкибудущее программирования
Habr
RU

Новый бенчмарк по кодингу для LLM ProgramBench: 9 топ моделей, 200 задач, 248 тысяч тестов. Полностью решённых — ноль

200 задач. 248 тысяч тестов. Девять моделей, среди них всё свежее: Opus 4.7, GPT 5.4, Gemini 3.1 Pro, Sonnet 4.6. На SWE-bench те же модели берут 70 %…

ProgramBenchбенчмаркLLMкодинг-агентыSWE-benchvibe-codingopus 4.7GPT-5.4