AI & ML — Tech News

All EN RU

Один суффикс, чтобы взломать их всех

Градиентные атаки на LLM разнообразны: GCG добавляет абракадабру, AutoDAN добавляет связный текст - но обе они бьют в одно и то же уязвимое место: обе…

llm джеилбрейк ai safety adversarial attacks ai alignment red team