Как я мерил точность ИИ в распознавании еды: бенчмарк, LLM-as-judge и баг с варёной гречкой
Строю приложение для подсчёта калорий по фото. Пользователь снимает тарелку, модель определяет блюдо, считает КБЖУ. Идея не новая, но мне важно, чтобы…
Latest Testing & QA news from Tech News
Строю приложение для подсчёта калорий по фото. Пользователь снимает тарелку, модель определяет блюдо, считает КБЖУ. Идея не новая, но мне важно, чтобы…
Ты час разговариваешь с ChatGPT. Даёшь контекст, объясняешь задачу, уточняешь детали. А потом модель вдруг начинает противоречить тому, что говорила р…
Два года назад все хотели агента, который «сам пишет код, сам его тестирует и сам деплоит в прод». Сейчас 2026 год. Давайте честно поговорим о т…
На связи Сергей Смирнов, AI-инженер и основатель LLMStart.ru. Сегодня разбираем мультимодальность в ИИ-агентах на реальном примере из продакшена. Мы п…
Когда говорят про RAG, его часто описывают как простой способ улучшить LLM‑систему: добавить поиск по внешним данным, найти релевантный…
На связи Сергей Смирнов, AI-инженер и основатель LLMStart.ru. Сегодня разбираем самое больное место разработки ИИ-агентов — как доказать, что они реал…
На связи Сергей Смирнов, AI-инженер и основатель LLMStart.ru. Сегодня разбираем горячую тему, на которой спотыкаются многие разработчики ботов — памят…
Flaky‑тесты сложно ловить даже привычными инженерными методами: они ломают CI, подрывают доверие к автотестам и часто воспроизводятся только тогд…
Если ваш ИИ-агент при каждом вопросе начинает grep-ом по всему проекту — у меня есть для вас одна штука. SocratiCode — это MCP-сервер, который индекси…