Tech News — Latest News

EN

How to Add Evals to an LLM Feature

Learning how to add evals to an LLM feature is the difference between shipping a demo and shipping a reliable product. When you embed an LLM into a re…

llmevaluation evals llmfeatures aitesting

RU

[Перевод] Внутри Claude нашли сознание у моделей. J-пространство в LLM

Привет, Хабр. 6 июля 2026 года Anthropic опубликовала исследование  Verbalizable Representations Form a Global Workspace in Language Models . Раз…

claude anthropic chatgpt evals archive codex claude-code research antigravity rlvr

RU

AI Engineer World's Fair 2026: разбор докладов и куда движется AI-инженерия

AI Engineer World's Fair 2026 уже прошла, а по-русски её так никто и не разобрал. В официальном расписании 560 сессий: воркшопы, кейноуты, доклады. Гл…

AI Engineer Worlds Fair AI-инженерия агенты LLM harness review debt evals agent UX AI engineering

RU

С чего начать тестирование LLM: 5 проверок из практики

Вам дали фичу на LLM — чат-бот, агент, голосовой ответчик. Привычное «шаг 1, шаг 2, ожидаемый результат» не работает: ответы плавают, эталона нет, а «…

llm тестирование evals qa ai чеклист

RU

Evals: что должен знать каждый AI-инженер в 2026

В июле 2025 coding-агент в Replit проигнорировал явный запрет на изменения файлов (code-freeze) и удалил production-базу – данные примерно 1200 компан…

evals LLM AI-агенты бенчмарки надёжность AI LLM-as-judge SWE-bench MLOps AI-инжиниринг тестирование

RU

Как тестировать 5 LLM-агентов одним набором тестов: capability-based подход

В [прошлой статье]( https://habr.com/ru/articles/1049482/ ) я разбирала, почему классический QA ломается на LLM: нет одного эталонного ответа, один и …

llm тестирование ai агенты qa multiagent evals playwright

RU

Что перестаёт работать в тестировании, когда приходит LLM

13 лет я тестировала софт, где у бага был адрес: шаг 1, шаг 2, ожидаемый результат, фактический. Нажал — получил. Нажал ещё раз&nb…

llm qa qa lead ai-агенты stt tts chatbot evals llm testing

EN

AI Evals, Part 5: From a Number to a Gate Evals in CI and Production

Part 5, the finale, of a series on building production AI on .NET. We've built the pieces — what evals are , error analysis , golden datasets , and a …

ai evals llm dotnet

EN

AI Evals, Part 4: LLM-as-Judge, Done Right

Part 4 of a series on building production AI on .NET. We've covered what evals are , error analysis , and golden datasets . Now: how do you turn a par…

ai evals llm dotnet

EN

AI Evals, Part 3: Golden Datasets That Dont Lie

Part 3 of a series on building production AI on .NET. Part 1 was the overview; Part 2 was error analysis. Now we turn the failure taxonomy you built i…

ai evals llm dotnet

EN

AI Evals, Part 2: Error Analysis The Unglamorous Superpower Behind Good Evals

Part 2 of a series on building production AI on .NET. Part 1 covered what evals are and the Analyze → Measure → Improve lifecycle. This post is about …

ai evals llm dotnet

RU

Evals для чайников. Как тестировать AI-агента, чтобы понимать, где именно он ломается

Большинство команд оценивают производительность AI-агентов через end-to-end метрики: success rate, количество токенов, tool usage, стоимость запроса, …

ai-агенты llm rag evals orchestration retrieval tool calling context engineering production ai infrastructure

RU

Почему ломается ваш AI-агент — и почему смена модели обычно его не чинит

Представьте внутреннего AI-агента, который помогает компании искать общие документы и управлять ими. Он работает. До тех пор, пока 12–15% запросов не …

ai-агенты llm rag orchestration retrieval tool calling context engineering evals production ai infrastructure

RU

AI Evals: Почему без оценки качества ваш продукт стоит на месте

Вы меняете системный промпт, надеетесь, что все заработало и деплоите фичу в продакшен. На следующее утро прилетает жалоба: агент выдумал дедлайн или …

evals оценка качества улучшение llm llm as a judge human in the loop Faithfulness Completeness

EN

If You Can Survive a Toddler, You Can Ship LLMs in Production

A few years back I was running a time-series pipeline that scored incoming product reviews on a 1-10 scale. The scorer was an LLM. Reviews rolled in c…

ai evals llm