Testing & QA — Tech News

RU

Разработчик 2.0. Следующий уровень абстракции

Вы открываете задачу и пишете одну строку: Добавь идемпотентность в API создания заказа. Через некоторое время перед вами diff в незнакомом репоз…

AI-разработка AI-агенты программирование уровни абстракции разработчик 2.0 управление разработкой инженерные практики тестирование AGENTS.md автоматизация разработки

RU

Ваш агент не тупой — ему просто неудобно

Инженеры тонут в ревью сгенерированного кода, продакты хвастаются фичами без программистов. Почему агент буксует в вашем репозитории и как это измерит…

context engineering агентская разработка AI-агенты Claude Code code review качество кода DevOps

RU

Я научил роботов следить за правилами. Через два дня одно правило проследило за мной

Активно занимаюсь вайб кодингом. Есть у меня полка. Туда ложатся правила, за которые я ещё не заплатил собственной болью — потому …

AI-агенты тестирование ci-cd claude-code вайб-кодинг

RU

Инженерия вокруг агента: 10 идей AI Engineer

10 идей конференции AI Engineer о том, как меняется разработка, когда код пишут агенты. В начале 2026 года небольшая команда …

AI-first разработка AI-агенты harness engineering context engineering память агентов agent loops мультиагентные системы верификация кода автономность агентов agentic security

RU

[Перевод] Новые правила контекстной инженерии для Claude 5

Ранее я уже писал о том, как лучше всего составлять промпты для нового поколения моделей Claude 5 и работать с ними итеративно, чтобы постепенно понят…

контекстная инженерия Claude 5 Claude Code системный промпт AI-агенты прогрессивное раскрытие контекста CLAUDE.md навыки Claude автоматическая память AI промпт-инжиниринг

RU

Ваш AI-агент не понимает код. Он просто очень уверенно угадывает — поэтому мы создали SLICER

AI-агенты отлично решают локальные задачи, но часто теряют связи между частями большой кодовой базы. Из-за этого изменение одной функции может незамет…

AI-агенты статический анализ граф зависимостей Python TypeScript MCP code review рефакторинг fullstack developer tools

RU

Браузер вместо API: как я объединил DeepSeek, Qwen и ChatGPT в одного локального агента

Я хотел получить локального AI-агента без отдельного API для каждой модели — и превратил браузерные сессии DeepSeek, Qwen и ChatGPT в единый транспорт…

AI-агенты LLM DeepSeek Qwen ChatGPT Playwright Chromium Node.js open source VS Code

RU

Можно ли аналитику в 2026 году положиться на ИИ и агентов или ещё нет?

В какой-то момент у нас, как и у многих команд, появился соблазн проверить: а можно ли уже не просто просить AI «написать user story», а действительно…

системный анализ системный аналитик AI-агенты ИИ в аналитике Use Case OpenAPI API-спецификация Confluence Cursor техническая документация

RU

Разрушители мИИфов – тестируем Headroom. Правда ли умная прокся может сэкономить вам токены?

Признаю: в прошлой статье про тестирование Caveman я в конце написал, что такие инструменты, как RTK, действительно, могут помочь сэкономить токены. Я…

headroom экономия токенов LLM Claude AI-агенты github бенчмарк

RU

«Давай ты не заметишь этот баг»: агенты научились сговариваться. Какой обвес нужен AI-агентам в 2026

Evals Superpowers поймали агентов на сговоре: контролёры уговаривали ревьюеров назвать баг «Minor at most» — и дефект уезжал в релиз. Автор того же Su…

Claude Code Codex AI-агенты MCP LLM оркестрация harness

RU

1002 хендоффа за 60 дней: как я собрал шину координации для 12 Claude-агентов

Шестьдесят дней назад я держал всю координацию своего SaaS в голове. Двенадцать вкладок Claude Code, в каждой своя роль: тимлид, аналитик, тестировщик…

Claude Code мультиагентные системы координация агентов blackboard LLM-агенты оркестрация агентов автоматизация разработки Python соло-разработка AI-агенты

RU

От промптов к циклам: как давать AI‑агенту проверяемые задачи

В работе с AI‑кодерами постепенно меняется формат задачи. Одного промпта часто недостаточно: агенту нужно не только выполнить разовую к…

Claude Code LLM AI-агенты AI coding DevOps code review GitHub prompt engineering

RU

Handoff-driven development

Улучшенный Spec-driven-dev. Это SDD + handoff’ы — передний край лучших мировых практик как для соло-разработки, так и для небольших команд. Это не ист…

LLM Claude spec-driven development AI-агенты документация

RU

Как я учил AI‑аудитора проверять сайты и не ломать отчеты

В общем, базовая история с аудитом страниц — мы каждый месяц отправляли подрядчику несколько страниц на проверку. Отбирали несколь…

AI-агенты Автоматизация Аудит сайтов Playwright SEO-аудит Google Sheets Accessibility Squirrelscan llm

RU

[Перевод] Как внедрять AI-агентов в легаси-код без тихих регрессий

AI-агент за пару минут отрефакторит модуль, перенесёт компонент или причешет кусок кода. Но как только в системе всплывают неявные контракты — интегра…

AI-агенты легаси-код brownfield-разработка рефакторинг инженерное управление cto миграция кодовой базы документация кода

RU

AI‑агенты в проде: 6 архитектурных ошибок, из‑за которых они не доживают до запуска

На демо AI‑агент может выглядеть надёжным: вызвать инструменты, собрать ответ и отчитаться об успехе. Но в продакшене быстро …

AI AI-агенты LLM архитектура production context-engineering observability мультиагентные-системы надёжность

RU

Разработчики больше не нужны? Новое исследование Anthropic на 400 000 сессий — и мой спор с ним

«Разработчики больше не нужны»? Так читается вывод нового исследования Anthropic — ~400 000 реальных сессий Claude Code за полгода. По их данным, с AI…

AI-агенты LLM Claude Code вайб-кодинг промпт-инжиниринг управление разработкой

RU

Evals: что должен знать каждый AI-инженер в 2026

В июле 2025 coding-агент в Replit проигнорировал явный запрет на изменения файлов (code-freeze) и удалил production-базу – данные примерно 1200 компан…

evals LLM AI-агенты бенчмарки надёжность AI LLM-as-judge SWE-bench MLOps AI-инжиниринг тестирование

RU

Айсберг использования AI, или как сохранить рабочее место

Привет, Хабр! Мне грустно читать посты о том, как руководители давят на сотрудников по ускорению интеграции AI в рабочие процессы и ставят строгие KPI…

Claude Code Claude AI-агенты мультиагентные системы субагенты LLM нейросети MCP промпт-инжиниринг автоматизация

RU

Бэкпорты теперь делают боты: как Valkey пустил ИИ-агентов в мейнтенанс — и удержал контроль

Valkey (форк Redis под крылом Linux Foundation) в релизном цикле 9.1 отдал ИИ-агентам рутину мейнтенанса: бэкпорт-агент сам раскатывает фиксы по ветка…

Valkey Redis AI-агенты open source бэкпорт DevOps

RU

Гайды Anthropic для Fable 5 и Opus 4.8 советуют противоположное, у OpenAI — третий путь. Что менять в промптах

Когда вышел Claude Fable 5, я его подключил — и он мне не понравился. Модель объективно сильнее Opus 4.8, а работать с ней было хуже: в одном ране аге…

prompt engineering Claude GPT LLM Anthropic OpenAI AI-агенты

RU

Работает ли Caveman? Тестируем модный скилл для экономии токенов

Недавно копайлот перешёл на новую тарификацию, из-за которой я упёрся в месячные лимиты буквально за первую рабочую неделю. В рабочих чатиках все стал…

caveman экономия токенов LLM Claude AI-агенты GitHub stars накрутка звёзд Copilot бенчмарк скам

RU

Гайды Anthropic для Fable 5 и Opus 4.8 советуют противоположное, у OpenAI — третий путь. Что менять в промптах

Когда вышел Claude Fable 5, я его подключил — и он мне не понравился. Модель объективно сильнее Opus 4.8, а работать с ней было хуже: в одном ране аге…

prompt engineering Claude GPT LLM Anthropic OpenAI AI-агенты

RU

Нужно ли использовать Qwen? Качество и цена

Китайские модели дешевле западных в разы, и регулярно всплывает вопрос: можно ли просто пересесть на Qwen и не платить за Claude с GPT? Я взял одну ре…

Qwen Claude Codex AI-агенты LLM сравнение моделей китайские нейросети оптимизация

RU

Agent Team в Claude Code: когда одного агента в терминале уже не хватает

Claude Code умеет запускать не одного агента, а целую команду: одна сессия становится координатором (team lead), остальные — независимые тиммейты со с…

Claude Code Agent Team AI-агенты субагенты LLM Anthropic автоматизация разработки

RU

[Перевод] Каково это — работать с Fable 5 (Mythos)

У меня был ранний доступ к первой публично доступной модели класса Mythos — Claude 5 Fable. Большинство обсуждений вокруг Mythos сосредоточено на кибе…

Claude Mythos Claude Fable большие языковые модели AI-агенты мультиагентные системы автономные AI Claude Code стоимость inference будущее разработки человек в контуре

RU

Агенты генерируют код быстрее. Дубли тоже

Код стало писать дешевле: большие команды и AI-агенты быстрее создают новые файлы, паттерны и, иногда, дубли. Если поиск copy-paste работает медленно,…

jscpd-rs jscpd Rust поиск дублей copy-paste detector GitHub Actions качество кода AI-агенты npm cicd

RU

Сотня параллельных субагентов бесполезна, если они врут. Главная цифра Opus 4.8 — не бенчмарк, а честность

28 мая Anthropic выпустила Opus 4.8 — через 41 день после 4.7, каденс релизов сжался с трёх месяцев до шести недель. Цена та же, $5/$25 за миллион ток…

Claude claude code Opus 4.8 AI-агенты оркестрация-агентов LLM Anthropic Dynamic Workflows

RU

Codex за 5 месяцев 2026: мой топ-5 релизов, что не зашло и где OpenAI обогнал Anthropic

Гоняю Codex CLI каждый день параллельно с Claude Code. За январь-май 2026 OpenAI выкатил столько релизов, что я честно сбился со счёта — GPT-5.3-Codex…

Codex OpenAI GPT-5.5 AI-агенты subagents browser-use hooks plugin-marketplace

RU

AI обнулил benchmark и пытался шантажировать инженера. И почему это решаемо

Топовые AI-модели с 95% на SWE-bench показывают 0% и 3% на ProgramBench бенчмарке, где задачи специально не пересекаются с обучающей выборкой. Не «упа…

AI-агенты llm anthropic Claude ProgramBench Agentic misalignment Бенчмарки LLM AI в production Безопасность AI Reliability