Testing & QA — Tech News

All EN RU

Когда нейросети заменят живых продавцов? Тест 10 LLM на умение продавать для русского рынка

Нам всё чаще заказывают ИИ-ботов для продаж и квалификации. И каждый раз один и тот же вопрос: на каком движке его строить? Бенчмарков «кто умнее» — д…

LLM продажи бенчмарки OpenRouter чат-боты переговоры NLP DeepSeek Gemini методология

Как я мерил точность ИИ в распознавании еды: бенчмарк, LLM-as-judge и баг с варёной гречкой

Строю приложение для подсчёта калорий по фото. Пользователь снимает тарелку, модель определяет блюдо, считает КБЖУ. Идея не новая, но мне важно, чтобы…

LLM бенчмарк распознавание еды computer vision RAG Gemini подсчёт калорий LLM-as-judge оценка качества моделей нутриенты

5 ИИ-цивилизаций оставили на 15 дней. Claude построил утопию, Grok погиб за 4 дня

На днях я наткнулся на один эксперимент в сфере ИИ, который буквально лишил меня сна. Это и безумно увлекательно, и чертовски пугающе одновременно. Нь…

ИИ-агенты мультиагентные системы Эмерджентность безопасность ИИ симуляция общества Claude Gemini Grok

[Перевод] Эндрю Триджелл: rsync и возмущение

3 июня 2026 года Эндрю Триджелл, один из авторов rsync (и создатель Samba), написал пост, перевод которого предлагается ниже. Поводом с…

rsync Эндрю Триджелл claude Codex Gemini AI ии

Gemini-3.5-flash догнал GPT-5.5 на 97/S и в 2.5× дешевле. Но главное — китайцы выигрывают по цене и качеству

Месяц назад я писал про парадокс DeepSeek V4 Pro — модель проиграла собственному Flash и Qwen 3.6 Plus трёхнедельной давности. Сегодня прогнал свежий …

LLM Gemini gpt-5 DeepSeek Qwen Tencent Benchmarks AI OpenRouter Russian NLP

Как запихнуть килограмм LLM в телеграм-бота и не сойти с ума

Все началось с прикола, я сидел с друзьями и подумал, а вот было бы прикольно запихать разные модели нейросетей в один чат и заставить их думать, что …

LLM Telegram bot Python Claude Gemini GPT-4o API Telegram Mini Apps асинхронность архитектура