Testing & QA — Tech News

All EN RU

Kimi K3 на PAC1 и ECOM1: результаты 204 задач и разбор отказов

27 июля Moonshot AI открыла веса Kimi K3 и опубликовала результаты модели на coding- и агентных бенчмарках. Мы проверили, как эти показатели переносят…

Kimi K3 LLM языковые модели открытые веса open source ИИ-агенты tool calling агентные системы оценка моделей тестирование ИИ

Пишем кодинг‑агента на Swift с нуля: неочевидные сложности очевидной идеи

Я долго пользовался разными кодинг‑агентами, и на их фоне Claude Code для меня заметно выделялся: качеством решений, удобством работы и вним…

swift ai-агенты llm кодинг-агенты claude-code agent loop context management tool calling управление контекстом ии

Evals для чайников. Как тестировать AI-агента, чтобы понимать, где именно он ломается

Большинство команд оценивают производительность AI-агентов через end-to-end метрики: success rate, количество токенов, tool usage, стоимость запроса, …

ai-агенты llm rag evals orchestration retrieval tool calling context engineering production ai infrastructure