RU

Как я мерил точность ИИ в распознавании еды: бенчмарк, LLM-as-judge и баг с варёной гречкой

Строю приложение для подсчёта калорий по фото. Пользователь снимает тарелку, модель определяет блюдо, считает КБЖУ. Идея не новая, но мне важно, чтобы…

LLMбенчмаркраспознавание едыcomputer visionRAGGeminiподсчёт калорийLLM-as-judgeоценка качества моделейнутриенты
Habr
RU

Находим конфликты в пользовательских историях за 10 минут с помощью ИИ

В бэклоге может быть десятки аккуратно оформленных user stories — и несколько противоречий, которые сорвут спринт. Покажем, как за…

пользовательские историианализ требованийконфликты требованийсистемный анализискусственный интеллектнейросетиGeminiPythonбэклогавтоматизация
Habr
RU

Gemini-3.5-flash догнал GPT-5.5 на 97/S и в 2.5× дешевле. Но главное — китайцы выигрывают по цене и качеству

Месяц назад я писал про парадокс DeepSeek V4 Pro — модель проиграла собственному Flash и Qwen 3.6 Plus трёхнедельной давности. Сегодня прогнал свежий …

LLMGeminigpt-5DeepSeekQwenTencentBenchmarksAIOpenRouterRussian NLP
Habr
RU

Как запихнуть килограмм LLM в телеграм-бота и не сойти с ума

Все началось с прикола, я сидел с друзьями и подумал, а вот было бы прикольно запихать разные модели нейросетей в один чат и заставить их думать, что …

LLMTelegram botPythonClaudeGeminiGPT-4oAPITelegram Mini Appsасинхронностьархитектура
Habr