RU

Харнесс вокруг кодящего агента, или Как я создал собственного монстра

Качество работы с кодящим агентом почти не зависит от того, какая под капотом модель. Я довольно долго в это не верил — менял модели, крутил промпты, …

claude codeии-агенты для разработкихарнессcontext engineeringagentic coding
Habr
RU

Evals для чайников. Как тестировать AI-агента, чтобы понимать, где именно он ломается

Большинство команд оценивают производительность AI-агентов через end-to-end метрики: success rate, количество токенов, tool usage, стоимость запроса, …

ai-агентыllmragevalsorchestrationretrievaltool callingcontext engineeringproductionai infrastructure
Habr
RU

Чем умнее модель, тем меньше ей нужно: четыре дисциплины production‑агента

Если твой агент обвешан пошаговыми инструкциями и десятком узких инструментов под каждый шаг — он, скорее всего, работает хуже, чем мог&nbsp…

AI-агентыproduction-агентыcontext engineeringинженерия контекстаAnthropicClaudeLLMAgent Skillsпромпт-инжинирингtool design
Habr
RU

Мультимодальность в ИИ-агентах: картинки на вход, картинки на выход и отказ от Multimodal RAG

На связи Сергей Смирнов, AI-инженер и основатель LLMStart.ru. Сегодня разбираем мультимодальность в ИИ-агентах на реальном примере из продакшена. Мы п…

RAGmultimodal RAGмультимодальностьvision LLMimage-onlyColPaliCLIPLLM-агентыLangChaincontext engineering
Habr
RU

Память на миллион, а толку ноль: как мы спасали ИИ-агента от «тупости»

На связи Сергей Смирнов, AI-инженер и основатель LLMStart.ru. Сегодня разбираем горячую тему, на которой спотыкаются многие разработчики ботов — памят…

LangChainИИ-агентыRAGcontext engineeringLLMAI-driven разработкаllmstartконтекст-инжинирингproductionproduction-ready
Habr
RU

Почему ломается ваш AI-агент — и почему смена модели обычно его не чинит

Представьте внутреннего AI-агента, который помогает компании искать общие документы и управлять ими. Он работает. До тех пор, пока 12–15% запросов не …

ai-агентыllmragorchestrationretrievaltool callingcontext engineeringevalsproductionai infrastructure
Habr
RU

От RAG-прототипа к агенту в продакшн: путь по метрикам, а не по моде

На связи Сергей Смирнов, AI-инженер LLMStart.ru. Сегодня расскажу о полноценном кейсе, который мы делали для компании Айтон: агенте-консультанте по 1С…

RAGLLMИИ-агентыLangChainLangFuseRagasметрики качестваcontext engineeringмультимодальностьии
Habr
RU

Harness вокруг LLM: что я понял за полтора года ежедневной работы

Полтора года в Claude Code, несколько релизов моделей, десятки экспериментов с командой в Kaiten. Всё это время я ждал, что главным рычагом качества б…

LLMClaude CodeAI-агентыprompt engineeringharnessAnthropiccontext engineeringAgent Skillsllms.txtvibecoding