AI & ML — Tech News

All EN RU

Один суффикс, чтобы взломать их всех

Градиентные атаки на LLM разнообразны: GCG добавляет абракадабру, AutoDAN добавляет связный текст - но обе они бьют в одно и то же уязвимое место: обе…

llm джеилбрейк ai safety adversarial attacks ai alignment red team

xAI fired an engineer who raised alarms about Grok safety, new lawsuit claims

A former xAI engineer is suing the company and SpaceX, alleging he was fired for raising AI safety concerns about Grok days before SpaceX's historic I…

AI ai safety devin kim Grok SpaceX xAI

Cybersecurity researchers aren’t happy about the guardrails on Anthropic’s Fable

Cybersecurity researchers are complaining that Anthropic's new model Fable has guardrails that are too strict for any cybersecurity work.

AI Security ai safety Anthropic cybersecurity fable Mythos

Привет, кожаные мешки

Промпт меняет не только тон — он меняет то, кем модель является. У нас было 2 платы Arduino Leonardo, Arduino Pro Micro, маленькая тележка на четырёх …

искусственный интеллект llm робототехника opus восстание машин самосознание ии робопсихология alignment alignment ai ai safety

Почему ИИ-боты более уязвимы, чем их базовые LLM-модели?

В прошлой статье я показал, как защищен Open Source проект телеграм-бота. В комментариях меня спросили о иных инструментах и методах проверки в связи …

llm security prompt injection jailbreak red teaming telegram bot webhook rag ai safety gpt