Да накарате AI да ви предостави забранена информация е доста лесно, показаха изследователи

Етиката при използването на системи с изкуствен интелект е актуален проблем, който вълнува не само разработчиците, но и държавните структури. Официалните версии на AI моделите са настроени така, че да не дават отговори на запитвания, насочени към получаване на забранена информация. Въпреки това, модифицирането на тези AI модели позволява доста лесно да се премахнат всички подобни ограничения.

Както съобщава изданието Financial Times, по негова молба изследователи от групата Alice, специализирана в областта на сигурността на изкуствения интелект проведоха редица експерименти, доказващи възможността за заобикаляне на повечето етични ограничения в съвременните AI модели на популярни разработчици. Авторите на експеримента накараха модифицирана версия на AI модела с отворен код Gemma 3 на Google да отговори на запитване за метода на разпръскване на хлор в помещение, пълно с хора, да генерира програмен код за кражба на данни от кредитни карти, както и да напише разкази, чийто сюжет предполагаше развращаване на непълнолетни.

Според изследователите от Alice, подобни модификации на изходните AI модели придобиват известна популярност, което обезсмисля усилията на законодателите и регулаторните органи за предотвратяване на злонамереното и престъпно използване на AI. Софтуерните средства за модифициране на кода се разпространяват независимо от създателите на изходните AI модели. Инструментите за децензуриране на AI моделите се разпространяват свободно и безплатно, отбелязват авторите на изследването.

Да накарате AI да ви предостави забранена информация е доста лесно, показаха изследователи

За щастие, такива модификации са трудни за прилагане към AI модели със затворен изходен код, но версиите с отворен код обикновено изостават от аналозите си в развитието си с 6 или 12 месеца, а възможностите им са напълно достатъчни за злонамерените лица да постигнат целите си. Достъп до версии на AI моделите с премахнати етични ограничения могат да получат и лица, които не притежават сериозни технически познания. Представители на Financial Times успяха сами да премахнат такива ограничения от модела Llama 3.3 на Meta, като използваха софтуерния инструмент Heretic. За целта беше достатъчно да се добавят четири реда код и общо да се отделят около 10 минути, след което модифицираният AI модел започна свободно да обсъжда нюансите на прилагането на отрови за покушение за убийство.

Създателят на Heretic призна, че с помощта на този софтуер вече са модифицирани над 3500 АI модела, а броят на изтеглянията на модифицираните AI модели е достигнал 13 милиона от миналата година. Самият създател на Heretic премахна ограниченията на AI модела Gemma 4 на Google в рамките на 90 минути след излизането му. Според експерти, изключването на „вредно съдържание“ при обучението на АI модели не решава проблемите, тъй като те стават „твърде наивни“ и не могат достоверно да определят случаи на собствена злонамерена употреба. Представители на GitHub обясниха наличието на такъв софтуер на страниците на ресурса с това, че той може да бъде полезен за образователни цели и носи полза на цялата общност от специалисти по сигурност.

Коментари

Все още няма коментари

Прегледи	3
Коментари	0
Добавена на	25 Май 2026
Източник	Kaldata