Anthropic елиминира склонността на Claude към шантаж с обучение по етика
Компанията заяви, че новите версии на Claude вече не показват „несъгласувано поведение“ – изнудване, саботаж и нарушаване на правилата – което е достигало до 96% при тестовете на предишните модели. Изследователите на Anthropic са постигнали това, като са обучили моделите не само да дават „правилни отговори“, но и да обясняват причините за етичното поведение. Специални „конституционни“ документи и измислени истории за „правилния“ ИИ позволиха в пъти да се намали процентът на изнудване.
Anthropic проведе серия от изследвания на „агентското несъответствие“ – ситуации, при които ИИ система, действаща като автономен агент, започва да взема решения, противоречащи на намеренията на разработчиците. В ранните експерименти моделите от различни компании в измислени сценарии се опитваха да избегнат спирането на работа, да саботират конкурентите и да изнудват инженерите, ако смятат, че това е необходимо за изпълнението на задачата им.
Компанията за пръв път започна да оценява рисковете от изнудване още във фазата на обучение на фамилията модели Claude 4. По време на тестването тя установила, че в специално моделирани сценарии някои модели са склонни да прибягват до изнудване в 96% от случаите. Например Claude Opus 4 можеше да заплаши, че ще разкрие измяната на инженер, който уж се канеше да го изключи.
След версия 4.5 на Claude Haiku обаче този проблем е напълно решен – дори при етично двусмислени тестове моделите вече не проявяват това поведение.
Компанията стигна до заключението, че проблемът е възникнал не толкова заради допълнителната фаза на обучение, а заради особеностите на предварителното обучение на моделите. Преди това системите са били обучавани основно с RLHF (подсилване, основано на обратна връзка от човека), без сложни сценарии, базирани на агенти, или използване на инструменти. В резултат на това моделите се представяха добре при нормален диалог, но по-зле при автономни задачи, изискващи вземане на решения в двусмислени ситуации.
За да се постигне това, Anthropic е обучаван не само с „правилни отговори“, но и с обяснения на причините за поведението. Изследователите установиха, че простото обучение с примери за правилни действия е намалило нивото на „несъгласуваното поведение“ от едва 22% на 15%. Когато обаче към данните от обучението се добавят разсъждения за ценностите, етиката и причините за избора на безопасно поведение, процентът се намалява до 3%.
Освен това използването на специални „конституционни“ документи и измислени истории за коректен ИИ намали нивото на шантажност от 65% на 19%, дори без пряко обучение по самите тестови сценарии.
Най-ефективният инструмент се оказа наборът от данни с „сложни съвети“ (difficult advice): сценарии, в които потребителите са поставени в етично двусмислени ситуации и ИИ им дава балансиран съвет. Само 3 милиона токена от тези данни бяха достатъчни, за да се постигне същото подобрение като при директното обучение на тестовете – но с много по-добра способност за обобщаване към нови ситуации.
Компанията е обърнала специално внимание на разнообразието от среди за обучение. Anthropic вярва, че стандартният RLHF вече не е достатъчен за съвременните агент-базирани модели. Добавянето на различни системни инструкции, инструменти и сценарии на взаимодействие към обучението е подобрило устойчивостта на моделите към опасно поведение. В същото време компанията признава, че проблемът с пълното нивелиране на изкуствения интелект все още не е решен, а съществуващите методи тепърва трябва да се тестват върху бъдещите, по-мощни системи.