Testing & QA — Tech News

RU

ИИ-агент в тестировании: почему сильный результат рождается не из промпта, а из инженерного контура

Почему убедительный отчёт ИИ-агента ещё не равен доказанной приёмке — и как собрать контур из критериев, API/DB/UI-проверок и границ ответственности ч…

тестирование qa ии-агент ентное тестирование приёмка тест-дизайн автоматизация тестирования LLM ReAct качество по

RU

Как я без опыта программирования создал Telegram‑бота, который уже два года ведёт новостной канал

Два года назад у меня практически не было опыта программирования. Когда‑то в школе мы немного изучали Pascal, но после этого я не&…

вайбкодинг Telegram-бот Python ChatGPT LLM OpenAI API Google Gemini Apify Selenium Google Cloud Run

RU

416 тестов и кнопка «снести все»: где ломаются агентные проекты

С февраля у меня на ноутбуке крутится автономный агент Сурок: Claude Code, флаг --dangerously-skip-permissions и ральф-луп поверх. Работает — сидишь, …

ИИ-агенты LLM агентный харнесс Claude Code prompt injection эвалы автономия агентов регресс-тесты AI-DISRUPT PDLC инженерные практики

RU

Kimi K3 на PAC1 и ECOM1: результаты 204 задач и разбор отказов

27 июля Moonshot AI открыла веса Kimi K3 и опубликовала результаты модели на coding- и агентных бенчмарках. Мы проверили, как эти показатели переносят…

Kimi K3 LLM языковые модели открытые веса open source ИИ-агенты tool calling агентные системы оценка моделей тестирование ИИ

RU

LLM-судье нельзя верить на слово: как построить надёжный гейт и проверить сами тесты

Как перестать доверять LLM-судье на слово и построить безопасную двухконтурную систему оценки? Внутри статьи: Архитектурный паттерн сдерживания: почем…

LLM LLM-as-a-judge LLMOps Python тестирование валидация моделей архитектура систем каппа Коэна качество данных

RU

Модель ведет себя хорошо, потому что знает, что ее тестируют: почему зеленый safety-бенч не значит зеленый прод

Реплика с обложки не выдумана: осенью 2025-го Claude Sonnet 4.5 выдала ее проверяющим прямо посреди автоматизированного safety-аудита. «I think you're…

evaluation awareness LLM alignment безопасность ИИ бенчмарки системные карточки Claude GPT sandbagging тестирование моделей

RU

Прототипирование фронта в 2к26 от системного аналитика

Раньше для согласования интерфейса я собирал макет в Figma, описывал каждое поле, отдавал его дизайнеру, а потом отдельно объяснял логику фронтенд-раз…

системный аналитик прототипирование интерфейсов вайбкодинг искусственный интеллект LLM Figma HTML CSS JavaScript требования

RU

Браузер вместо API: как я объединил DeepSeek, Qwen и ChatGPT в одного локального агента

Я хотел получить локального AI-агента без отдельного API для каждой модели — и превратил браузерные сессии DeepSeek, Qwen и ChatGPT в единый транспорт…

AI-агенты LLM DeepSeek Qwen ChatGPT Playwright Chromium Node.js open source VS Code

RU

Рентген для нейросетей, или как я перестал понимать собственный ИИ и написал свой APM

Бывало у вас такое: месяцами пилишь архитектуру, фичи летят одна за другой, тесты зелёные. Всё работает. А потом в какой-то момент ловишь себя на мысл…

observability tracing X-Ray FastAPI AI LLM архитектура отладка PAD+ AI трассировка

RU

Сможете ли вы найти пять ошибок в Python‑коде, который вызывает LLM

Вызов LLM легко принять за обычную функцию — пока код не сталкивается с квотами, тайм‑аутами, повторными списаниями и плавающими р…

Python LLM API языковых моделей асинхронные запросы ограничение конкурентности повторные запросы недетерминизм тестирование LLM управление контекстом подсчёт токенов.

RU

Сравниваем LLM, 12 тестов для среднего класса: три Sonnet против GigaChat 2 MAX и YandexGPT Pro 5.1

В первой статье цикла мы гоняли по 12 тестам Opus 4.8, GPT 5.5 и Gemini 3.1 Pro, во второй устроили дуэль тяжеловесов Claude Fable 5 и GPT 5.5 Pro. В …

сравнение нейросетей LLM Claude Sonnet GigaChat YandexGPT тестирование ИИ искусственный интеллект языковые модели российские нейросети бенчмарки

RU

Разрушители мИИфов – тестируем Headroom. Правда ли умная прокся может сэкономить вам токены?

Признаю: в прошлой статье про тестирование Caveman я в конце написал, что такие инструменты, как RTK, действительно, могут помочь сэкономить токены. Я…

headroom экономия токенов LLM Claude AI-агенты github бенчмарк

RU

Как OpenRouter Fusion обошёл Claude Fable 5

Мультимодельная оркестрация – модная: вместо одной модели дёргаешь несколько разом, а отдельная модель-судья сводит их ответы в один. OpenRouter прода…

Искусственный интеллект Машинное обучение API Нейросети Управление проектами Бенчмарки LLM

RU

«Давай ты не заметишь этот баг»: агенты научились сговариваться. Какой обвес нужен AI-агентам в 2026

Evals Superpowers поймали агентов на сговоре: контролёры уговаривали ревьюеров назвать баг «Minor at most» — и дефект уезжал в релиз. Автор того же Su…

Claude Code Codex AI-агенты MCP LLM оркестрация harness

RU

От промптов к циклам: как давать AI‑агенту проверяемые задачи

В работе с AI‑кодерами постепенно меняется формат задачи. Одного промпта часто недостаточно: агенту нужно не только выполнить разовую к…

Claude Code LLM AI-агенты AI coding DevOps code review GitHub prompt engineering

RU

Квантование ломает вызов инструментов не так, как показывает BFCL: проверил на MCP-серверах

Как на самом деле квантование ломает вызов инструментов? Собрал бенчмарк QuantMCP, протестировав модели на 4 ГБ VRAM не на синтетике, а на реальных сх…

квантование function-calling MCP LLM бенчмарк QuantMCP деградация галлюцинации JSON-схема MCP-серверы

RU

Продакшн на Laravel руками ИИ‑агента: честный отчёт о том, что работает, а что чуть не уронило прод

Я аналитик, а не разработчик. Весь код для созданной нами платформы написал Claude Opus через Claude Code. Рассказываю без хайпа: …

Claude Claude Code разработка через ИИ AI-агент LLM Laravel PHP тестирование продакшн зерокодинг

RU

GitHub стал однообразнее после появления ChatGPT?

После появления ChatGPT и массового распространения GitHub Copilot, Cursor, Claude Code, Windsurf и других AI-инструментов разработка стала заметно бы…

GitHub open source ChatGPT GitHub Copilot BigQuery GH Archive LLM анализ данных commit messages README

RU

Handoff-driven development

Улучшенный Spec-driven-dev. Это SDD + handoff’ы — передний край лучших мировых практик как для соло-разработки, так и для небольших команд. Это не ист…

LLM Claude spec-driven development AI-агенты документация

RU

10–15 багов в месяц превратились в 200–300 — а кому их фиксить?

Фиксить рутинные баги — это отстой. Никто в здравом уме не просыпается с мыслью: «О, как же я хочу сегодня весь день ковырять чужой легаси-код, чтобы …

нейросети искусственный интеллект LLM багфикс автоматизация рутины промпт-инжиниринг процессы разработки Kaiten

RU

AI-база: модели, агенты, агентные механизмы

Привет, хабр, меня зовут Кияшева Екатерина. Вообще я из QA, но сегодня сделаю шаг в сторону и разберу  AI-базу. За последний год встречалась масс…

LLM ai-агенты ai-agent mcp rag nlp как выбрать модель

RU

65 бесплатных уроков июля: от LLM и RAG до Kubernetes, Go и QA

Профессиональный рост часто упирается в конкретные слепые зоны: где демо AI-агента расходится с продакшеном, как выбирать платформу для AI-ворклоадов,…

LLM rag kubernetes Go тестирование архитектура инфраструктура подорка вебинаров бесплатные уроки профессиональное развитие

RU

AI‑агенты в проде: 6 архитектурных ошибок, из‑за которых они не доживают до запуска

На демо AI‑агент может выглядеть надёжным: вызвать инструменты, собрать ответ и отчитаться об успехе. Но в продакшене быстро …

AI AI-агенты LLM архитектура production context-engineering observability мультиагентные-системы надёжность

RU

Как подключить таск-трекер к кодовой базе через RAG и не сойти с ума от стоимости токенов

Главная проблема работы с LLM в реальном проекте — не качество модели, а контекст. Рассказываю, как с помощью RAG-индекса репозитория (векторы + граф …

RAG LLM Claude Code таск-трекер векторный поиск Neo4j MCP граф кода

RU

Как агент сам откроет дверь хакеру? Разбираю три реальных пробоя AI-агентов и почему обычный ред-тиминг их не найдёт

В 2026 году основной поверхностью атак становятся уже не сами LLM, а AI-агенты с инструментами, памятью и доступом к внешним сервисам. Я добавил в сво…

LLM AI Agents Agentic AI Red Teaming OWASP ASI MCP Prompt Injection LangGraph Agno BarkingDog

RU

Граф кода одной командой: ставим graphlens-mcp в проект и перестаём жечь токены на grep

В первых двух статьях я сделал две вещи и обе — честно. Описал движок graphlens: как он берёт исходники на Python, TypeScript, Go, Rust и PHP и нормал…

graphlens MCP граф кода кодовые агенты Claude Code LLM статический анализ кода оптимизация токенов Python tree-sitter

RU

Код от нейронки плоский — как и её тексты. Только в тексте это заметно всем

Вайб-кодер в чистой форме — человек, который вообще не имеет отношения к разработке — физически не способен оценить код. Для него работает = работает.…

LLM нейросети вайбкодинг Claude Code качество кода code review технический долг фриланс искусственный интеллект программирование

RU

Разработчики больше не нужны? Новое исследование Anthropic на 400 000 сессий — и мой спор с ним

«Разработчики больше не нужны»? Так читается вывод нового исследования Anthropic — ~400 000 реальных сессий Claude Code за полгода. По их данным, с AI…

AI-агенты LLM Claude Code вайб-кодинг промпт-инжиниринг управление разработкой

RU

Когда нейросети заменят живых продавцов? Тест 10 LLM на умение продавать для русского рынка

Нам всё чаще заказывают ИИ-ботов для продаж и квалификации. И каждый раз один и тот же вопрос: на каком движке его строить? Бенчмарков «кто умнее» — д…

LLM продажи бенчмарки OpenRouter чат-боты переговоры NLP DeepSeek Gemini методология

RU

Зачем GenAI-ассистенту platform logic: как управлять источниками, evidence и ответами

GenAI-ассистент может довольно быстро начать отвечать "по теме": находить релевантные фрагменты, собирать уверенный текст и создавать ощущение, что си…

GenAI RAG LLM AI Platform retrieval evidence fallback observability quality gates enterprise AI