Testing & QA — Tech News

RU

Как не-программист собрал нативный дашборд для Mac руками Claude и доказал, что баг с CPU в скролле ему померещился

Сразу скажу: я не программист Вообще. Код на работе не пишу, пет-проектов на гитхабе нет, да и SwiftUI изнутри не знаю совсем. Просто захотелось понят…

SwiftUI macOS AppKit производительность профилирование CPU ИИ-агенты Claude разработка без Xcode оптимизация

RU

Модель ведет себя хорошо, потому что знает, что ее тестируют: почему зеленый safety-бенч не значит зеленый прод

Реплика с обложки не выдумана: осенью 2025-го Claude Sonnet 4.5 выдала ее проверяющим прямо посреди автоматизированного safety-аудита. «I think you're…

evaluation awareness LLM alignment безопасность ИИ бенчмарки системные карточки Claude GPT sandbagging тестирование моделей

EN

Stripe Benchmark Shows AI Agents Build Integrations but Struggle with Validation

Stripe introduces a benchmark suite to evaluate whether AI agents can build real-world Stripe integrations across backend, frontend, and browser-based…

Integration Claude Web Browser AI Coding ChatGPT Stripe Validation Benchmark Agents AI Development Software Engineering payment AIOps Observability Development AI, ML & Data Engineering Architecture & Design news

RU

Разрушители мИИфов – тестируем Headroom. Правда ли умная прокся может сэкономить вам токены?

Признаю: в прошлой статье про тестирование Caveman я в конце написал, что такие инструменты, как RTK, действительно, могут помочь сэкономить токены. Я…

headroom экономия токенов LLM Claude AI-агенты github бенчмарк

EN

Secret Claude tracker shocks users after Anthropic’s anti-surveillance stance

Anthropic accused of spying on users; engineer says “experiment” is over.

AI Policy AI privacy Anthropic Artificial Intelligence china Claude Claude Code Distillation frontier ai surveillance

RU

Продакшн на Laravel руками ИИ‑агента: честный отчёт о том, что работает, а что чуть не уронило прод

Я аналитик, а не разработчик. Весь код для созданной нами платформы написал Claude Opus через Claude Code. Рассказываю без хайпа: …

Claude Claude Code разработка через ИИ AI-агент LLM Laravel PHP тестирование продакшн зерокодинг

RU

Handoff-driven development

Улучшенный Spec-driven-dev. Это SDD + handoff’ы — передний край лучших мировых практик как для соло-разработки, так и для небольших команд. Это не ист…

LLM Claude spec-driven development AI-агенты документация

RU

Айсберг использования AI, или как сохранить рабочее место

Привет, Хабр! Мне грустно читать посты о том, как руководители давят на сотрудников по ускорению интеграции AI в рабочие процессы и ставят строгие KPI…

Claude Code Claude AI-агенты мультиагентные системы субагенты LLM нейросети MCP промпт-инжиниринг автоматизация

RU

Гайды Anthropic для Fable 5 и Opus 4.8 советуют противоположное, у OpenAI — третий путь. Что менять в промптах

Когда вышел Claude Fable 5, я его подключил — и он мне не понравился. Модель объективно сильнее Opus 4.8, а работать с ней было хуже: в одном ране аге…

prompt engineering Claude GPT LLM Anthropic OpenAI AI-агенты

RU

Работает ли Caveman? Тестируем модный скилл для экономии токенов

Недавно копайлот перешёл на новую тарификацию, из-за которой я упёрся в месячные лимиты буквально за первую рабочую неделю. В рабочих чатиках все стал…

caveman экономия токенов LLM Claude AI-агенты GitHub stars накрутка звёзд Copilot бенчмарк скам

RU

Гайды Anthropic для Fable 5 и Opus 4.8 советуют противоположное, у OpenAI — третий путь. Что менять в промптах

Когда вышел Claude Fable 5, я его подключил — и он мне не понравился. Модель объективно сильнее Opus 4.8, а работать с ней было хуже: в одном ране аге…

prompt engineering Claude GPT LLM Anthropic OpenAI AI-агенты

RU

Секретные команды Claude — миф или реальность: тестируем L99 и /ghost

Если вы хоть раз гуглили "как улучшить ответы Claude" - вы точно видели посты про "секретные команды". /ghost, L99, BEASTMODE, /godmode - звучит как ч…

Claude промпт-инжиниринг L99 ghost префиксы LLM ChatGPT подсказки AI команды power user

RU

[Перевод] Я сжёг недельный лимит Claude за 24 часа и придумал этому слово

Расскажу как было. Fable — новая модель Claude, у которой был открытый доступ. Я её ждал и заранее не тратил недельный лимит на другие модели, копил. …

Claude Anthropic lastbursting AI agents fable вайбкодинг юмор

RU

Нужно ли использовать Qwen? Качество и цена

Китайские модели дешевле западных в разы, и регулярно всплывает вопрос: можно ли просто пересесть на Qwen и не платить за Claude с GPT? Я взял одну ре…

Qwen Claude Codex AI-агенты LLM сравнение моделей китайские нейросети оптимизация

RU

5 ИИ-цивилизаций оставили на 15 дней. Claude построил утопию, Grok погиб за 4 дня

На днях я наткнулся на один эксперимент в сфере ИИ, который буквально лишил меня сна. Это и безумно увлекательно, и чертовски пугающе одновременно. Нь…

ИИ-агенты мультиагентные системы Эмерджентность безопасность ИИ симуляция общества Claude Gemini Grok

RU

[Перевод] Claude против краевых случаев: как LLM-агент нашёл баги в NumPy и других Python-библиотеках

Исследователи Anthropic собрали LLM-агента, который читает код Python-библиотек, сам формулирует свойства, пишет property-based тесты на Hypothesis и …

property-based testing тестирование на основе свойств Claude LLM-агенты hypothesis автоматизация тестирования поиск багов python-библиотеки NumPy

RU

Сотня параллельных субагентов бесполезна, если они врут. Главная цифра Opus 4.8 — не бенчмарк, а честность

28 мая Anthropic выпустила Opus 4.8 — через 41 день после 4.7, каденс релизов сжался с трёх месяцев до шести недель. Цена та же, $5/$25 за миллион ток…

Claude claude code Opus 4.8 AI-агенты оркестрация-агентов LLM Anthropic Dynamic Workflows

RU

Покопались в .cursorrules на GitHub и нашли там волка-фурри, Star Trek и 28.7% копипасты

Где-то на GitHub лежит репозиторий с файлом .cursorrules. Среди инструкций для Cursor затесалась строчка: ALWAYS refer to the user as "My Dear Capybar…

Cursor cursorrules LLM prompt engineering Claude AI-инструменты GitHub

RU

AI обнулил benchmark и пытался шантажировать инженера. И почему это решаемо

Топовые AI-модели с 95% на SWE-bench показывают 0% и 3% на ProgramBench бенчмарке, где задачи специально не пересекаются с обучающей выборкой. Не «упа…

AI-агенты llm anthropic Claude ProgramBench Agentic misalignment Бенчмарки LLM AI в production Безопасность AI Reliability

RU

Mythos: модель, о которой Anthropic не говорит. Реверс по жертвам — от 27-летней дыры в OpenBSD до побега из песочницы

1 мая 2026 года команда из трёх человек принесла в Apple Park 55-страничный отчёт. Внутри — рабочий эксплойт kernel memory corruption на macOS 26.4.1 …

Mythos Claude Anthropic кибербезопасность уязвимости эксплойты AI безопасность CVE OpenBSD exploit development

EN

Anthropic's Code With Claude Announces Managed Agents, Proactive Workflows, Capability Curve

Anthropic hosted "Code with Claude 2026" in San Francisco, featuring livestream sessions focused on Claude Code, the Claude API platform, and other pr…

Claude Software Development Artificial Intelligence Anthropic AI, ML & Data Engineering news

RU

Как запихнуть килограмм LLM в телеграм-бота и не сойти с ума

Все началось с прикола, я сидел с друзьями и подумал, а вот было бы прикольно запихать разные модели нейросетей в один чат и заставить их думать, что …

LLM Telegram bot Python Claude Gemini GPT-4o API Telegram Mini Apps асинхронность архитектура

RU

Codex 5.3 vs Claude Opus 4.6 на реальном Java-монолите

Я сравнил Codex 5.3, Claude Opus 4.6 и GPT-5.5 на реальном многомодульном Java-монолите: скопировал проект в отдельные ветки, дал агентам похожие зада…

Codex Claude GPT-5.5 AI-агенты вайбкодинг Java Spring AI Telegram-бот LLM ReAct

RU

Как я перестал бояться и полюбил MCP или Зачем я написал 4 MCP‑сервера и протокол для их связи

Привет! Вы знаете как это бывает — начинаешь делать одну штуку, а потом просыпаешься через неделю и понимаешь, что написал че…

MCP Model Context Protocol TRAIL Claude AI-агенты автоматизация оркестрация нейросети playwright JSONL