RU

Как я мерил точность ИИ в распознавании еды: бенчмарк, LLM-as-judge и баг с варёной гречкой

Строю приложение для подсчёта калорий по фото. Пользователь снимает тарелку, модель определяет блюдо, считает КБЖУ. Идея не новая, но мне важно, чтобы…

LLMбенчмаркраспознавание едыcomputer visionRAGGeminiподсчёт калорийLLM-as-judgeоценка качества моделейнутриенты
Habr
RU

5 ИИ-цивилизаций оставили на 15 дней. Claude построил утопию, Grok погиб за 4 дня

На днях я наткнулся на один эксперимент в сфере ИИ, который буквально лишил меня сна. Это и безумно увлекательно, и чертовски пугающе одновременно. Нь…

ИИ-агентымультиагентные системыЭмерджентностьбезопасность ИИсимуляция обществаClaudeGeminiGrok
Habr
RU

Мы вскрыли трафик ChatGPT, Gemini и DeepSeek, чтобы понять, откуда берутся «источники» в ответах

Когда нейросеть отвечает на вопрос и показывает блок «источников», кажется, что у всех систем это одно и то же — список ссылок, на которые модель опир…

ChatGPTGeminiDeepSeekGEOLLMцитированиеSSEProtobuf.
Habr
RU

Находим конфликты в пользовательских историях за 10 минут с помощью ИИ

В бэклоге может быть десятки аккуратно оформленных user stories — и несколько противоречий, которые сорвут спринт. Покажем, как за…

пользовательские историианализ требованийконфликты требованийсистемный анализискусственный интеллектнейросетиGeminiPythonбэклогавтоматизация
Habr
RU

Gemini-3.5-flash догнал GPT-5.5 на 97/S и в 2.5× дешевле. Но главное — китайцы выигрывают по цене и качеству

Месяц назад я писал про парадокс DeepSeek V4 Pro — модель проиграла собственному Flash и Qwen 3.6 Plus трёхнедельной давности. Сегодня прогнал свежий …

LLMGeminigpt-5DeepSeekQwenTencentBenchmarksAIOpenRouterRussian NLP
Habr
RU

Как запихнуть килограмм LLM в телеграм-бота и не сойти с ума

Все началось с прикола, я сидел с друзьями и подумал, а вот было бы прикольно запихать разные модели нейросетей в один чат и заставить их думать, что …

LLMTelegram botPythonClaudeGeminiGPT-4oAPITelegram Mini Appsасинхронностьархитектура
Habr
RU

Цифровой аудит против галлюцинаций по ГОСТу. Как понять, когда ответу ИИ нельзя верить?

Все мы привыкли, что нейросети — это про креатив, быстрый поиск и «накидай мне презу на завтра», но что происходит,…

ИИLLMинтерпретация ИИаудит ИИсравнение моделейChatCPTGeminiпринятие решений