AI & ML — Tech News

All EN RU

AI Evals, Part 3: Golden Datasets That Dont Lie

Part 3 of a series on building production AI on .NET. Part 1 was the overview; Part 2 was error analysis. Now we turn the failure taxonomy you built i…

ai evals llm dotnet

AI Evals, Part 2: Error Analysis The Unglamorous Superpower Behind Good Evals

Part 2 of a series on building production AI on .NET. Part 1 covered what evals are and the Analyze → Measure → Improve lifecycle. This post is about …

ai evals llm dotnet

Evals для чайников. Как тестировать AI-агента, чтобы понимать, где именно он ломается

Большинство команд оценивают производительность AI-агентов через end-to-end метрики: success rate, количество токенов, tool usage, стоимость запроса, …

ai-агенты llm rag evals orchestration retrieval tool calling context engineering production ai infrastructure

Почему ломается ваш AI-агент — и почему смена модели обычно его не чинит

Представьте внутреннего AI-агента, который помогает компании искать общие документы и управлять ими. Он работает. До тех пор, пока 12–15% запросов не …

ai-агенты llm rag orchestration retrieval tool calling context engineering evals production ai infrastructure

AI Evals: Почему без оценки качества ваш продукт стоит на месте

Вы меняете системный промпт, надеетесь, что все заработало и деплоите фичу в продакшен. На следующее утро прилетает жалоба: агент выдумал дедлайн или …

evals оценка качества улучшение llm llm as a judge human in the loop Faithfulness Completeness

If You Can Survive a Toddler, You Can Ship LLMs in Production

A few years back I was running a time-series pipeline that scored incoming product reviews on a 1-10 scale. The scorer was an LLM. Reviews rolled in c…

ai evals llm