RU

Токен-оптимизация агентов: на что уходит контекстное окно MCP

Чем больше задач берёт на себя агент, тем чаще он упирается не в качество модели, а в контекстное окно: туда нужно уместить инструкции, историю диалог…

mcpclaudeanthropicllmai-агентыopensourcecontext-engineeringaiclaude-codetokens
Habr
RU

ИИ уже пишет 80% кода Anthropic. Самое тревожное спрятано в цифре, которую подают как успех

Anthropic отчиталась, что больше 80% её кода теперь пишет Claude, — а её же автоматический проверяющий ловит лишь треть прошлых ошибок, то есть две тр…

самогенерация ИИнезависимая проверкавалидаторымутационное тестированиеформальная верификацияПЛКIEC61508METRнадежность кодаanthropic
Habr
RU

AI обнулил benchmark и пытался шантажировать инженера. И почему это решаемо

Топовые AI-модели с 95% на SWE-bench показывают 0% и 3% на ProgramBench бенчмарке, где задачи специально не пересекаются с обучающей выборкой. Не «упа…

AI-агентыllmanthropicClaudeProgramBenchAgentic misalignmentБенчмарки LLMAI в productionБезопасность AIReliability
Habr