RU

Evals для чайников. Как тестировать AI-агента, чтобы понимать, где именно он ломается

Большинство команд оценивают производительность AI-агентов через end-to-end метрики: success rate, количество токенов, tool usage, стоимость запроса, …

ai-агентыllmragevalsorchestrationretrievaltool callingcontext engineeringproductionai infrastructure
Habr
RU

Почему ломается ваш AI-агент — и почему смена модели обычно его не чинит

Представьте внутреннего AI-агента, который помогает компании искать общие документы и управлять ими. Он работает. До тех пор, пока 12–15% запросов не …

ai-агентыllmragorchestrationretrievaltool callingcontext engineeringevalsproductionai infrastructure
Habr
RU

AI Evals: Почему без оценки качества ваш продукт стоит на месте

Вы меняете системный промпт, надеетесь, что все заработало и деплоите фичу в продакшен. На следующее утро прилетает жалоба: агент выдумал дедлайн или …

evalsоценка качестваулучшение llmllm as a judgehuman in the loopFaithfulnessCompleteness
Habr