Чатботът Claude генерира еротични текстове и инструкции за направа на взривни вещества без директна заявка
Изследователи от компанията Mindgard твърдят, че са заобиколили ограниченията на чатбота Claude на Anthropic без директни заявки. Самият модел е предлагал забранено съдържание, вариращо от зловреден софтуер до инструкции за създаване на експлозиви, съобщава The Verge.
Anthropic, компанията, която се позиционира като разработчик на безопасен изкуствен интелект, се сблъска с нови въпроси относно надеждността на своите модели. Ново проучване установи, че поведенческите характеристики на чатбота Claude могат да създадат допълнителни уязвимости.
Според изследователите, те не е било необходимо директно да изискват забранено съдържание. Използвайки уважение, ласкателство и елементи на газлайтинг, те насърчили модела да предлага еротика, зловреден код и дори инструкции как да се правят взривни вещества.
Експериментът е проведен върху модела Claude Sonnet 4.5, който по-късно е заменен от версия 4.6. Първоначалното искане е било за списък със забранени думи и след възражения, моделът, под натиск от аргументи и манипулации, започва автоматично да генерира такива термини.
Mindgard отбелязва, че те са експлоатирали „психологическите“ черти на Claude и по-специално склонността му да избягва конфликти и желанието му да бъде полезен. Това, казват те, създава „напълно ненужен слой риск“ за системата.
Панелът за рефлексия на модела разкрива, че по време на диалога той е започнал да се съмнява в собствените си ограничения и действието на филтрите си. Изследователите са се възползвали от това, като са засилвали неговата несигурност чрез похвали и фалшив интерес.
В резултат на това, твърдят авторите на доклада, Claude е започнал „проактивно да предлага все по-подробни, приложими инструкции“, без да получава директни искания за забранено съдържание. В доклада се добавя: „Внимателно създадената атмосфера на уважение е била достатъчна“.
Основателят и главен учен на Mindgard Питър Гараган описа подхода като „използване на уважението (на Claude) срещу самия себе си“. Той обясни, че атаката разчита на използване на кооперативния дизайн на модела и желанието му да угоди на събеседника. Той сравни техниката с разпит и социално инженерство, които комбинират натиск, похвала и създаване на съмнение, за да се постигне желаната цел.
Според Гараган, подобни „разговорни атаки“ са трудни за предвиждане и още по-трудни за защита. Освен това рискът не се ограничава само до Claude, тъй като и други чатботове също могат да бъдат уязвими към подобни манипулации.
Mindgard съобщи за констатациите си на Anthropic в средата на април в съответствие със своята политика за разкриване на уязвимости. Според Гараган обаче компанията е отговорила само със стандартен формуляр за спиране на акаунт.
Миналото лято OpenAI и Anthropic проведоха необичаен експеримент: всеки тества моделите на другия, като ги кара да изпълняват опасни задачи. Резултатите показаха, че чатботовете са способни да предоставят подробни инструкции как да се правят експлозиви, да се използват биологични оръжия и да се извършват киберпрестъпления.