RU

Работает ли Caveman? Тестируем модный скилл для экономии токенов

Недавно копайлот перешёл на новую тарификацию, из-за которой я упёрся в месячные лимиты буквально за первую рабочую неделю. В рабочих чатиках все стал…

cavemanэкономия токеновLLMClaudeAI-агентыGitHub starsнакрутка звёздCopilotбенчмаркскам
Habr
RU

Гайды Anthropic для Fable 5 и Opus 4.8 советуют противоположное, у OpenAI — третий путь. Что менять в промптах

Когда вышел Claude Fable 5, я его подключил — и он мне не понравился. Модель объективно сильнее Opus 4.8, а работать с ней было хуже: в одном ране аге…

prompt engineeringClaudeGPTLLMAnthropicOpenAIAI-агенты
Habr
RU

Секретные команды Claude — миф или реальность: тестируем L99 и /ghost

Если вы хоть раз гуглили "как улучшить ответы Claude" - вы точно видели посты про "секретные команды". /ghost, L99, BEASTMODE, /godmode - звучит как ч…

Claudeпромпт-инжинирингL99ghostпрефиксыLLMChatGPTподсказкиAI командыpower user
Habr
RU

5 ИИ-цивилизаций оставили на 15 дней. Claude построил утопию, Grok погиб за 4 дня

На днях я наткнулся на один эксперимент в сфере ИИ, который буквально лишил меня сна. Это и безумно увлекательно, и чертовски пугающе одновременно. Нь…

ИИ-агентымультиагентные системыЭмерджентностьбезопасность ИИсимуляция обществаClaudeGeminiGrok
Habr
RU

[Перевод] Claude против краевых случаев: как LLM-агент нашёл баги в NumPy и других Python-библиотеках

Исследователи Anthropic собрали LLM-агента, который читает код Python-библиотек, сам формулирует свойства, пишет property-based тесты на Hypothesis и …

property-based testingтестирование на основе свойствClaudeLLM-агентыhypothesisавтоматизация тестированияпоиск баговpython-библиотекиNumPy
Habr
RU

Сотня параллельных субагентов бесполезна, если они врут. Главная цифра Opus 4.8 — не бенчмарк, а честность

28 мая Anthropic выпустила Opus 4.8 — через 41 день после 4.7, каденс релизов сжался с трёх месяцев до шести недель. Цена та же, $5/$25 за миллион ток…

Claudeclaude codeOpus 4.8AI-агентыоркестрация-агентовLLMAnthropicDynamic Workflows
Habr
RU

AI обнулил benchmark и пытался шантажировать инженера. И почему это решаемо

Топовые AI-модели с 95% на SWE-bench показывают 0% и 3% на ProgramBench бенчмарке, где задачи специально не пересекаются с обучающей выборкой. Не «упа…

AI-агентыllmanthropicClaudeProgramBenchAgentic misalignmentБенчмарки LLMAI в productionБезопасность AIReliability
Habr
RU

Mythos: модель, о которой Anthropic не говорит. Реверс по жертвам — от 27-летней дыры в OpenBSD до побега из песочницы

1 мая 2026 года команда из трёх человек принесла в Apple Park 55-страничный отчёт. Внутри — рабочий эксплойт kernel memory corruption на macOS 26.4.1 …

MythosClaudeAnthropicкибербезопасностьуязвимостиэксплойтыAI безопасностьCVEOpenBSDexploit development
Habr
RU

Как запихнуть килограмм LLM в телеграм-бота и не сойти с ума

Все началось с прикола, я сидел с друзьями и подумал, а вот было бы прикольно запихать разные модели нейросетей в один чат и заставить их думать, что …

LLMTelegram botPythonClaudeGeminiGPT-4oAPITelegram Mini Appsасинхронностьархитектура
Habr
RU

Как я перестал бояться и полюбил MCP или Зачем я написал 4 MCP‑сервера и протокол для их связи

Привет! Вы знаете как это бывает — начинаешь делать одну штуку, а потом просыпаешься через неделю и понимаешь, что написал че…

MCPModel Context ProtocolTRAILClaudeAI-агентыавтоматизацияоркестрациянейросетиplaywrightJSONL