Работает ли Caveman? Тестируем модный скилл для экономии токенов
Недавно копайлот перешёл на новую тарификацию, из-за которой я упёрся в месячные лимиты буквально за первую рабочую неделю. В рабочих чатиках все стал…
Latest Testing & QA news from Tech News
Недавно копайлот перешёл на новую тарификацию, из-за которой я упёрся в месячные лимиты буквально за первую рабочую неделю. В рабочих чатиках все стал…
Можно ли одним промптом собрать полноценный браузерный API и получить результат, близкий к зрелой open source-реализации? В эксперименте Claude Code п…
В марте 2026-го бэкдор пролежал на PyPI около трёх часов. За это время заражённый пакет скачали почти 47 тысяч раз. Пакет назывался LiteLLM — это шлюз…
Когда вышел Claude Fable 5, я его подключил — и он мне не понравился. Модель объективно сильнее Opus 4.8, а работать с ней было хуже: в одном ране аге…
У нас в проде живёт бот, который отвечает на вопросы по документации продукта — обычный RAG. Первые месяца три мы катили его,…
Один из моих крупных бизнес-проектов-бизнесов - разработка электроники и софта для БПЛА . Дошел до момента, когда на железе после MVP надо стало разве…
Если вы хоть раз гуглили "как улучшить ответы Claude" - вы точно видели посты про "секретные команды". /ghost, L99, BEASTMODE, /godmode - звучит как ч…
Китайские модели дешевле западных в разы, и регулярно всплывает вопрос: можно ли просто пересесть на Qwen и не платить за Claude с GPT? Я взял одну ре…
Claude Code умеет запускать не одного агента, а целую команду: одна сессия становится координатором (team lead), остальные — независимые тиммейты со с…
Строю приложение для подсчёта калорий по фото. Пользователь снимает тарелку, модель определяет блюдо, считает КБЖУ. Идея не новая, но мне важно, чтобы…
Ты час разговариваешь с ChatGPT. Даёшь контекст, объясняешь задачу, уточняешь детали. А потом модель вдруг начинает противоречить тому, что говорила р…
Я собрал четыре модели в один батч — две Gemma, DeepSeek V4 Flash и Qwen3-235B — потому что не поверил кросс-сессионным данным: выходило, что маленька…
ИИ-ревью кода уже умеет находить пропущенные тесты, типовые уязвимости и спорные места в пулл-реквестах. Однако его реальная точность зависит прежде в…
Держите LLM подальше от тестов чат-бота Кто тестировал чат-бота, знает: на одной реплике всё просто, а на третьей-четвёртой начинается боль. Бот долже…
Когда эксперт впервые увидел, как моя машина ведёт себя в динамике, он сказал, что без курсов по двигателям и трансмиссиям меня к такому тренажёру под…
Почему один из самых требовательных тестов ИИ уже, похоже, пройден Тест Лавлейс предложили в 2001 году, чтобы закрыть слабые места более известного те…
Ты уже пользуешься языковыми моделями — спрашиваешь, генерируешь, отлаживаешь код. Но откуда берётся сама способность отвечать? Не «где хранятся данны…
28 мая Anthropic выпустила Opus 4.8 — через 41 день после 4.7, каденс релизов сжался с трёх месяцев до шести недель. Цена та же, $5/$25 за миллион ток…
Один лагерь показывает 0,1% обращений в логах и хоронит файл. Другой обещает прирост цитируемости на 30–60%. Обе цифры реальны. Они измеряют разные ве…
Месяц назад начал делать собственный язык программирования Nova с Claude Code. За это время агенты автономно закрыли около трёхсот инженерных планов, …
Привет, Хабр! На связи Артем Колесников, Product Marketing Manager в Garage Eight. Сегодня хочу поговорить с вами про фокус‑группы, а т…
На прошлой неделе мы выпустили динамические воркфлоу в Claude Code. Теперь Claude может на лету писать собственную обвязку (harness)…
Локальные LLM сейчас — это действительно мощный инструмент. Они уже вплотную приблизились к проприетарным моделям вроде Claude, особенно в задачах код…
Claude Code у меня появился в марте 2025-го. Точную неделю не помню — в какой-то момент он у меня просто стал инструментом по умолчанию, и я с ним отр…
Карьерный рост в IT редко упирается только в «выучить еще один инструмент». Чаще проблема в другом: понять, какие технологии уже стали рабочей практик…
Крупнейшие ИИ-вендоры ведут агрессивную гонку контекстных окон: 128K токенов стали минимально необходимым стандартом, а некоторые модели заявляют и о …
Опыт ERP-архитектора: почему ChatGPT сначала выдавал красивые, но непроверяемые процессы — и почему решение оказалось не в промптах, а в предметной мо…
Однажды Cаймон Уиллисон (создатель фреймворка Django) придумал проверять все новые LLM промптом «сгенерируй SVG пеликана на велосипеде». Поначалу этот…
Когда говорят про RAG, его часто описывают как простой способ улучшить LLM‑систему: добавить поиск по внешним данным, найти релевантный…
Месяц назад я писал про парадокс DeepSeek V4 Pro — модель проиграла собственному Flash и Qwen 3.6 Plus трёхнедельной давности. Сегодня прогнал свежий …