RU

Работает ли Caveman? Тестируем модный скилл для экономии токенов

Недавно копайлот перешёл на новую тарификацию, из-за которой я упёрся в месячные лимиты буквально за первую рабочую неделю. В рабочих чатиках все стал…

cavemanэкономия токеновLLMClaudeAI-агентыGitHub starsнакрутка звёздCopilotбенчмаркскам
Habr
RU

[Перевод] LLM собрала IndexedDB с нуля: 1208 тестов, SQLite и несколько неприятных сюрпризов

Можно ли одним промптом собрать полноценный браузерный API и получить результат, близкий к зрелой open source-реализации? В эксперименте Claude Code п…

indexeddbLLMClaude CodeRalph loopWeb Platform Testsвайб-кодинггенерация кодабраузерные apiавтоматизация тестирования
Habr
RU

Prompt injection нельзя запатчить: год «летальной триады» и лента CVE 2026 года

В марте 2026-го бэкдор пролежал на PyPI около трёх часов. За это время заражённый пакет скачали почти 47 тысяч раз. Пакет назывался LiteLLM — это шлюз…

prompt injectionИИ-агентыLLMинформационная безопасностьлетальная триадаOWASPEchoLeakCaMeLagentic AIMCP
Habr
RU

Гайды Anthropic для Fable 5 и Opus 4.8 советуют противоположное, у OpenAI — третий путь. Что менять в промптах

Когда вышел Claude Fable 5, я его подключил — и он мне не понравился. Модель объективно сильнее Opus 4.8, а работать с ней было хуже: в одном ране аге…

prompt engineeringClaudeGPTLLMAnthropicOpenAIAI-агенты
Habr
RU

Claude дал неправильную архитектуру. Настоящая ошибка была не в Claude

Один из моих крупных бизнес-проектов-бизнесов - разработка электроники и софта для БПЛА . Дошел до момента, когда на железе после MVP надо стало разве…

LLMClaude Codeархитектура ПОдеплойпостановка задачиembedded linuxбплаdevopsprompt engineering
Habr
RU

Секретные команды Claude — миф или реальность: тестируем L99 и /ghost

Если вы хоть раз гуглили "как улучшить ответы Claude" - вы точно видели посты про "секретные команды". /ghost, L99, BEASTMODE, /godmode - звучит как ч…

Claudeпромпт-инжинирингL99ghostпрефиксыLLMChatGPTподсказкиAI командыpower user
Habr
RU

Agent Team в Claude Code: когда одного агента в терминале уже не хватает

Claude Code умеет запускать не одного агента, а целую команду: одна сессия становится координатором (team lead), остальные — независимые тиммейты со с…

Claude CodeAgent TeamAI-агентысубагентыLLMAnthropicавтоматизация разработки
Habr
RU

Как я мерил точность ИИ в распознавании еды: бенчмарк, LLM-as-judge и баг с варёной гречкой

Строю приложение для подсчёта калорий по фото. Пользователь снимает тарелку, модель определяет блюдо, считает КБЖУ. Идея не новая, но мне важно, чтобы…

LLMбенчмаркраспознавание едыcomputer visionRAGGeminiподсчёт калорийLLM-as-judgeоценка качества моделейнутриенты
Habr
RU

Что такое контекстное окно и почему модели забывают

Ты час разговариваешь с ChatGPT. Даёшь контекст, объясняешь задачу, уточняешь детали. А потом модель вдруг начинает противоречить тому, что говорила р…

контекстное окноLLMтокеныпамять ИИChatGPTязыковые моделиlost in the middleRAGGPTконтекст
Habr
RU

Модели почти год, а она всё ещё №1 по цене/качеству. Прогнал свежий батл-тест — и опять не сдвинул

Я собрал четыре модели в один батч — две Gemma, DeepSeek V4 Flash и Qwen3-235B — потому что не поверил кросс-сессионным данным: выходило, что маленька…

LLMQwenDeepSeekGemmaBenchmarksOpenRouterQuality AssessmentMethodologyRussian NLP
Habr
RU

ИИ-ревью кода в 2026 году: как оно работает и как внедрять

ИИ-ревью кода уже умеет находить пропущенные тесты, типовые уязвимости и спорные места в пулл-реквестах. Однако его реальная точность зависит прежде в…

ИИ-ревью кодаLLMавтоматизация разработкистатический анализконтекст кодовой базыинженерные процессы
Habr
RU

Клод в шестернях

Когда эксперт впервые увидел, как моя машина ведёт себя в динамике, он сказал, что без курсов по двигателям и трансмиссиям меня к такому тренажёру под…

unigineClaude Codeагентная разработкаLLMC++автотестысценарное тестированиелегасиматематическая модельсимулятор
Habr
RU

[Перевод] Тест Лавлейс: переосмысление

Почему один из самых требовательных тестов ИИ уже, похоже, пройден Тест Лавлейс предложили в 2001 году, чтобы закрыть слабые места более известного те…

тест Лавлейсgenerative aiкреативность ИИLLMИскусственный интеллектмашинное обучение
Habr
RU

За кулисами нейросетей: полный цикл тренировки языкового ИИ

Ты уже пользуешься языковыми моделями — спрашиваешь, генерируешь, отлаживаешь код. Но откуда берётся сама способность отвечать? Не «где хранятся данны…

LLMобучение нейросетейRLHFfine-tuningпредобучениетрансформерGPTязыковые моделимашинное обучениеИИ
Habr
RU

Сотня параллельных субагентов бесполезна, если они врут. Главная цифра Opus 4.8 — не бенчмарк, а честность

28 мая Anthropic выпустила Opus 4.8 — через 41 день после 4.7, каденс релизов сжался с трёх месяцев до шести недель. Цена та же, $5/$25 за миллион ток…

Claudeclaude codeOpus 4.8AI-агентыоркестрация-агентовLLMAnthropicDynamic Workflows
Habr
RU

Месяц пишу язык программирования Nova с Claude Code. Где ломаются автономные агенты

Месяц назад начал делать собственный язык программирования Nova с Claude Code. За это время агенты автономно закрыли около трёхсот инженерных планов, …

Novaязык программированиякомпиляторAI агентыClaude Codeавтономная разработкаLLMэффект-типы
Habr
RU

Особенности синтетических фокус-групп: что можно доверить ИИ, а что — исключительно человеку

Привет, Хабр! На связи Артем Колесников, Product Marketing Manager в Garage Eight. Сегодня хочу поговорить с вами про фокус‑группы, а т…

синтетические фокус-группымультиперсона-промптингLLMтестирование гипотезпродуктовый маркетингфокус-группысегментация аудиториипромптинг
Habr
RU

[Перевод] Harness под любую задачу: Dynamic Workflow в Claude Code

На прошлой неделе мы выпустили  динамические воркфлоу  в Claude Code. Теперь Claude может на лету писать собственную  обвязку (harness)…

Claude Codeдинамические воркфлоуагентикасубагентыоркестрация агентовмультиагентные системыконтекстное окноавтоматизацияLLMворкфлоу
Habr
RU

62 бесплатных урока июня: Java, Docker, LLM, SRE, DWH и другие темы для роста в IT

Карьерный рост в IT редко упирается только в «выучить еще один инструмент». Чаще проблема в другом: понять, какие технологии уже стали рабочей практик…

DockerKubernetesLLMJavakafkadevopsмикросервисыбесплатные урокипрофессиональное развитиеSRE
Habr
RU

Тайная слабость нейросетей: почему большие контекстные окна не работают

Крупнейшие ИИ-вендоры ведут агрессивную гонку контекстных окон: 128K токенов стали минимально необходимым стандартом, а некоторые модели заявляют и о …

ИИAILLMэкспериментпромпт-инжинирингпромптыконтекстная гнильcontext rotlost in the middlereasoning
Habr
RU

Вайбаналитика: как я учил LLM описывать бизнес-процессы, а не имитировать их

Опыт ERP-архитектора: почему ChatGPT сначала выдавал красивые, но непроверяемые процессы — и почему решение оказалось не в промптах, а в предметной мо…

вайбаналитикаLLMChatGPTбизнес-процессыбизнес-анализсистемный анализ1С ERPсемантическое ядропромптингавтоматизированное тестирование
Habr
RU

Почему RAG — это не просто «добавить поиск»: latency, качество и выбор стратегии retrieval

Когда говорят про RAG, его часто описывают как простой способ улучшить LLM‑систему: добавить поиск по внешним данным, найти релевантный…

RAGLLMretrievallatencyChromaOllamavector searchembeddingstop-kchunk size
Habr
RU

Gemini-3.5-flash догнал GPT-5.5 на 97/S и в 2.5× дешевле. Но главное — китайцы выигрывают по цене и качеству

Месяц назад я писал про парадокс DeepSeek V4 Pro — модель проиграла собственному Flash и Qwen 3.6 Plus трёхнедельной давности. Сегодня прогнал свежий …

LLMGeminigpt-5DeepSeekQwenTencentBenchmarksAIOpenRouterRussian NLP
Habr