RU

Как я мерил точность ИИ в распознавании еды: бенчмарк, LLM-as-judge и баг с варёной гречкой

Строю приложение для подсчёта калорий по фото. Пользователь снимает тарелку, модель определяет блюдо, считает КБЖУ. Идея не новая, но мне важно, чтобы…

LLMбенчмаркраспознавание едыcomputer visionRAGGeminiподсчёт калорийLLM-as-judgeоценка качества моделейнутриенты
Habr
RU

5 ИИ-цивилизаций оставили на 15 дней. Claude построил утопию, Grok погиб за 4 дня

На днях я наткнулся на один эксперимент в сфере ИИ, который буквально лишил меня сна. Это и безумно увлекательно, и чертовски пугающе одновременно. Нь…

ИИ-агентымультиагентные системыЭмерджентностьбезопасность ИИсимуляция обществаClaudeGeminiGrok
Habr
RU

Gemini-3.5-flash догнал GPT-5.5 на 97/S и в 2.5× дешевле. Но главное — китайцы выигрывают по цене и качеству

Месяц назад я писал про парадокс DeepSeek V4 Pro — модель проиграла собственному Flash и Qwen 3.6 Plus трёхнедельной давности. Сегодня прогнал свежий …

LLMGeminigpt-5DeepSeekQwenTencentBenchmarksAIOpenRouterRussian NLP
Habr
RU

Как запихнуть килограмм LLM в телеграм-бота и не сойти с ума

Все началось с прикола, я сидел с друзьями и подумал, а вот было бы прикольно запихать разные модели нейросетей в один чат и заставить их думать, что …

LLMTelegram botPythonClaudeGeminiGPT-4oAPITelegram Mini Appsасинхронностьархитектура