Testing & QA — Tech News

All EN RU

How to Add Evals to an LLM Feature

Learning how to add evals to an LLM feature is the difference between shipping a demo and shipping a reliable product. When you embed an LLM into a re…

llmevaluation evals llmfeatures aitesting

С чего начать тестирование LLM: 5 проверок из практики

Вам дали фичу на LLM — чат-бот, агент, голосовой ответчик. Привычное «шаг 1, шаг 2, ожидаемый результат» не работает: ответы плавают, эталона нет, а «…

llm тестирование evals qa ai чеклист

Evals: что должен знать каждый AI-инженер в 2026

В июле 2025 coding-агент в Replit проигнорировал явный запрет на изменения файлов (code-freeze) и удалил production-базу – данные примерно 1200 компан…

evals LLM AI-агенты бенчмарки надёжность AI LLM-as-judge SWE-bench MLOps AI-инжиниринг тестирование

Как тестировать 5 LLM-агентов одним набором тестов: capability-based подход

В [прошлой статье]( https://habr.com/ru/articles/1049482/ ) я разбирала, почему классический QA ломается на LLM: нет одного эталонного ответа, один и …

llm тестирование ai агенты qa multiagent evals playwright

Что перестаёт работать в тестировании, когда приходит LLM

13 лет я тестировала софт, где у бага был адрес: шаг 1, шаг 2, ожидаемый результат, фактический. Нажал — получил. Нажал ещё раз&nb…

llm qa qa lead ai-агенты stt tts chatbot evals llm testing

AI Evals, Part 5: From a Number to a Gate Evals in CI and Production

Part 5, the finale, of a series on building production AI on .NET. We've built the pieces — what evals are , error analysis , golden datasets , and a …

ai evals llm dotnet

AI Evals, Part 4: LLM-as-Judge, Done Right

Part 4 of a series on building production AI on .NET. We've covered what evals are , error analysis , and golden datasets . Now: how do you turn a par…

ai evals llm dotnet

AI Evals, Part 3: Golden Datasets That Dont Lie

Part 3 of a series on building production AI on .NET. Part 1 was the overview; Part 2 was error analysis. Now we turn the failure taxonomy you built i…

ai evals llm dotnet

Evals для чайников. Как тестировать AI-агента, чтобы понимать, где именно он ломается

Большинство команд оценивают производительность AI-агентов через end-to-end метрики: success rate, количество токенов, tool usage, стоимость запроса, …

ai-агенты llm rag evals orchestration retrieval tool calling context engineering production ai infrastructure

AI Evals: Почему без оценки качества ваш продукт стоит на месте

Вы меняете системный промпт, надеетесь, что все заработало и деплоите фичу в продакшен. На следующее утро прилетает жалоба: агент выдумал дедлайн или …

evals оценка качества улучшение llm llm as a judge human in the loop Faithfulness Completeness

If You Can Survive a Toddler, You Can Ship LLMs in Production

A few years back I was running a time-series pipeline that scored incoming product reviews on a 1-10 scale. The scorer was an LLM. Reviews rolled in c…

ai evals llm