RU

Промпты, RAG, LLM-тюнинг, Harness… Идём дальше?

Автономная диагностика СУБД требует от LLM-агента не просто генерации текста, а точной последовательности действий: сбора телеметрии, анализа планов з…

harnessmeta-harnessпаретодискретная оптимизацияprompt tuningRAG tuningharness engineeringmeta-agentmeta-llmllm as a judge
Habr
RU

AI Evals: Почему без оценки качества ваш продукт стоит на месте

Вы меняете системный промпт, надеетесь, что все заработало и деплоите фичу в продакшен. На следующее утро прилетает жалоба: агент выдумал дедлайн или …

evalsоценка качестваулучшение llmllm as a judgehuman in the loopFaithfulnessCompleteness