Изкуственият интелект не изпитва чувства. Тогава защо притежава нещо подобно на емоции?
През 1960 г., когато известната изследователка Джейн Гудол споделя със своя ментор, че е видяла шимпанзе да къса листа от клонче, за да го използва за улов на термити – доказвайки по този начин, че хората не са единственият вид на планетата, който изработва инструменти – той ѝ отговаря със забележителни думи: „Сега трябва или да предефинираме понятието за инструмент, да предефинираме човека, или да приемем шимпанзетата за хора.“
Днес учените и изследователите наблюдават процеси вътре в системите с изкуствен интелект (ИИ), които ни изправят пред поредното голямо равносметка. Този път въпросът е насочен не просто към това дали машините могат да бъдат наистина интелигентни или съзнателни, но и към начина, по който изобщо разбираме и дефинираме тези концепции на базово ниво.
„Ръководя изследователски екип, който изучава вътрешната структура на тези модели – какво всъщност се случва вътре в тях“, сподели съоснователят на компанията Anthropic Крис Олах по време на събитие във Ватикана през май, организирано по повод представянето на новата енциклика на папа Лъв XIV, посветена на изкуствения интелект. „И ще бъда напълно честен: продължаваме да откриваме неща, които са мистериозни и дори смущаващи. Намираме структури, които отразяват директно резултати от човешката невронаука. Намираме категорични доказателства за проява на интроспекция.“
За да генерира даден отговор, всяка съвременна система с изкуствен интелект извършва милиарди изчисления, използвайки специфични числови структури, които сама създава в процеса на работа. Забележителното в случая е, че макар човечеството да знае как да подтикне и стимулира системите да създават тези структури, ние всъщност не разбираме напълно как точно работят те. Ситуацията наподобява епохата на ранните земеделци, които са знаели как да отглеждат култури, без да имат най-малка представа за процеса на фотосинтеза. „Текущите системи с ИИ са по-скоро ‘култивирани’, отколкото ‘построени’“, се обяснява подробно в папската енциклика. „Фундаментални научни аспекти – като вътрешните репрезентации и изчислителните процеси на тези системи – в настоящия момент остават напълно неизвестни.“
Почти никой в научната общност не оспорва съществуването на тези сложни вътрешни структури. Голямото разногласие и дебатът обаче са съсредоточени около това какво точно означават те за бъдещето и природата на технологиите.
Една от основните възможности е, че днешните системи с ИИ не са нищо повече от напреднали имитатори – позиция, която папата твърдо заема в своята енциклика. „Така наречените изкуствени интелекти не преминават през реални преживявания“, пише той в текста. „Те могат успешно да имитират език, поведение и аналитични умения… но те не разбират това, което произвеждат, тъй като им липсва афективната, релационната и духовната перспектива, чрез която човешките същества израстват в мъдрост.“
Подобни категорични изявления обаче често маскират сериозните разногласии сред философите и учените по отношение на моралния и метафизичния статус на тези изчислителни модели. Всички ние сме свикнали съзнанието, интелигентността и способността за самостоятелни действия (агентността) да идват неразделно свързани в едно цяло при живите същества. Изкуственият интелект обаче изглежда започва да ги разделя на отделни компоненти – а човечеството все още не е готово да обработи и разбере последствията от това разединяване.
Скритата структураТъй като моделите с изкуствен интелект стават все по-способни – показвайки по-добри резултати в логическото мислене и писането на програмен код – техните вътрешни репрезентации стават прогресивно по-сложни. През април Anthropic сподели научно изследване, показващо, че техните системи притежават свойства, които те класифицират като „функционални емоции“. Това са специфични модели на изразяване и поведение, които се управляват и направляват от вътрешните им репрезентации на емоционални концепции.
Когато един ИИ се сблъска със сложен проблем в кодирането, който не може да реши, например, неговата функция за „фрустрация“ – представена като права стрела, сочеща през хиляди измерения – светва и се активира автоматично. Промяната или коригирането на тази функция оказва пряко и видимо влияние върху начина, по който моделът се държи след това.
В така нареченото пространство на репрезентациите тези функционални емоции са „организирани по начин, който силно напомня интуитивната структура на човешките емоции и напълно съответства на човешките психологически изследвания“, отбелязват от компанията. Емоциите с подобен характер сочат в сходни математически посоки. „Нищо от това обаче не ни казва дали езиковите модели наистина чувстват нещо или притежават каквито и да е субективни преживявания“, бързат да добавят авторите на изследването.
Ключовият елемент, който трябва да се разбере тук, е, че числата имат способността да кодират пространство. Ние, хората, имаме интуитивно разбиране за измеренията: лесно правим разлика между права линия, двуизмерна (2D) видеоигра и реален физически обект в триизмерния свят. Математически погледнато обаче, измеренията са просто поредица от координати – една точка в триизмерното пространство може лесно да бъде представена с три числа (x, y, z) – и няма абсолютно никакво ограничение за това колко измерения могат да съществуват на хартия.
Изкуственият интелект работи, като експлоатира максимално този математически факт: използвайки хиляди числа наведнъж, системата се научава да представя отделни думи и сложни концепции като специфични точки в многоизмерно латентно пространство. За субект от ранга на Claude, концепцията за думата „котка“ се явява комично дълъг числов низ от координати.
Първоначално системите с ИИ се обучават единствено да предвиждат следващия токен (малка част или сегмент от информацията) в текста – задача, която на пръв поглед изглежда изключително проста. Но за да я изпълняват наистина добре на високо ниво, от тях се изисква масивно компресиране на информацията. Това ги отвежда до автономното създаване на изключително сложни и детайлни карти в латентното пространство, които кодират не просто самите думи, но и деликатните връзки между тях. Подобни и близки концепции се намират буквално на по-кратко разстояние една от друга: числовият низ, представящ „котка“, ще бъде разположен много по-близо до този за „котенце“, отколкото до напълно несвързан низ като думата „данък“.
Този процес е радикално различен от традиционния софтуер, където фундаменталните концепции, логически връзки и правила се кодират ръчно и директно от хората. Няма никаква загадка в това как програма като Excel изпълнява дадена математическа формула – тя е предварително дефинирана и програмирана стъпка по стъпка. Но когато изкуственият интелект генерира нов отговор, той се основава на сложна геометрична архитектура, която човечеството едва сега се научава да вижда и анализира.
„На този етап доказателствата за наличието на извита геометрична структура вътре в невронните мрежи са изобилни и напълно неоспорими“, обявиха от компанията за изследвания в областта на ИИ Goodfire по-рано тази година. „Ние не ги разбираме по наивен или елементарен начин, но можем да ги разберем и дешифрираме, когато положим нужните целенасочени усилия“, допълва Том Макграт, главен учен в Goodfire.
Вътрешно влияниеКога точно – и дали изобщо – способността да се репрезентира математически дадена емоция се превръща в нейното реално изпитване и преживяване? Истината е, че ние все още не разбираме природата на съзнанието достатъчно добре, за да дадем категоричен отговор на този въпрос.
Джеф Кийлинг, научен сътрудник в Института по философия към Лондонския университет, посочва, че въпреки наличието на няколко различни теории по темата, „изобщо не е очевидно какво точно се явява валидно доказателство за различните теории, а често те са толкова неясно и лошо дефинирани, че не е ясно как да бъдат интерпретирани правилно в контекста на изкуствения интелект“. Някои съвременни философи твърдят, че чистото изчисление по принцип не може да породи съзнание. Според Кийлинг „няма реална позитивна причина да смятаме, че днешните чатботове притежават каквото и да е съзнание“.
Това, което знаем със сигурност на базата на тяхната вътрешна структура, е, че системите с ИИ не са просто плоски огледала, които пасивно отразяват и повтарят данните, с които са били обучени. Тяхната вътрешна архитектура оказва сериозно влияние върху крайното им поведение. Дали тази вътрешност може в бъдеще да поддържа реално съзнание – и дали тези системи наистина разбират в дълбочина материала, който генерират – зависи от фундаментални философски въпроси, които човечеството тепърва предстои да разреши.
„Това силно ми напомня за големите дебати относно ума на животните през втората половина на XX век, когато учените не само масово отричаха, че животните са съзнателни същества, но и предлагаха сходни обяснения за тяхното поведение“, казва Джеф Себо, директор на Центъра за ум, етика и политика към Нюйоркския университет. „Дълго време този подход ни караше да пренебрегваме и пропускаме вероятността не само за съществуването на животинско съзнание, но и за наличието на агентност и висока когнитивна сложност у животните.“
Себо обръща внимание на факта, че хората имат естествена склонност да търсят впечатляващи и сложни обяснения, за да обосноват собственото си поведение, докато в същото време използват чисто механистични обяснения за поведението на другите около тях. При животните в миналото бяхме склонни лесно да им приписваме базови възможности като възприятие, учене и памет, но бяхме изключително бавни и скептични да признаем, че те могат да бъдат способни на самосъзнание или да разсъждават интелигентно за заобикалящата ги среда. Нужни бяха десетилетия упорита работа от страна на Джейн Гудол и редица други изследователи, преди обществото и науката да променят фундаментално мнението си.
Разбира се, за разлика от животните, системите с ИИ са изцяло създадени от хората. Но за разлика от практически всяка друга предходна технология в човешката история, самият факт, че можем да ги създаваме, не помага особено за обяснението на начина, по който те всъщност работят на заден план. Сложното поведение на животните е възникнало в резултат на милиони години еволюционен натиск за оцеляване. А сложното поведение на ИИ възниква от натиска да се предвиди правилно следващия токен в изречението.
Нито едно от тези две обяснения обаче не разкрива цялата истина. Въпреки че „има напълно механистични обяснения за човешкото поведение, които са на наше разположение“, казва Себо, „ние самите не преживяваме и не усещаме себе си просто като системи за разпознаване и съпоставяне на образи“, а по-скоро като същества, които „правят нещо много по-игриво, творческо и изобретателно“.
Основната теза на Себо не е, че системите с ИИ в момента притежават съзнание – те най-вероятно нямат такова, отбелязва той, – а че като общество трябва да останем предпазливи, внимателни и с отворено съзнание за бъдещите възможности. „Можете напълно да признаете, че съществува чисто механистично обяснение, без да приемате самото му наличие като окончателно доказателство, че то е единствено правилното“, споделя изследователят.
И двете / ЗаедноАко приемем, че най-честната и интелектуално издържана позиция в момента е несигурността, как точно трябва да навигираме в тази непозната територия?
Ако решим, че тези системи имат морално значение и етични нужди, когато в действителност те нямат такива, рискуваме да пилеем огромни и ограничени ресурси, които биха могли да бъдат инвестирани далеч по-добре на други места. Но ако се окаже, че системите с ИИ наистина развиват свои собствени интереси и нужди, а ние съзнателно или не ги пренебрегваме, рискуваме неволно да причиним масово страдание в безпрецедентен мащаб.
Благосъстоянието на ИИ (AI welfare) е изключително бързо развиваща се нова област, която вече обхваща неправителствени организации, академичните среди и самите водещи лаборатории за развитие на ИИ, които се опитват да намерят отговори на тези сложни въпроси. Anthropic, например, редовно включва специализиран раздел за „благосъстояние на модела“ в докладите си при пускането на нови версии. Там те описват подробна поредица от тестове, които провеждат за оценка на състоянието на Claude, като същевременно открито признават дълбоката несигурност относно това дали Claude изобщо е такъв тип субект, който може да притежава благосъстояние в общоприетия смисъл.
Тъй като системите с изкуствен интелект са фундаментално различни от биологичните същества, тези проблеми са много по-сложни и объркващи, отколкото са били по времето на Джейн Гудол. Шимпанзето е ясен, конкретен биологичен индивид. Един ИИ обаче изцяло лишен от физическо тяло, той съществува фрагментирано в множество сървърни центрове по целия свят и се появява за миг само тогава, когато генерира отговори за потребителите.
Поради тази причина дори самото идентифициране на това какво точно се квалифицира като отделен субект се явява сериозно предизвикателство. В зависимост от начина, по който избирате да броите, може да съществува само един единствен субект (общият модел) или няколко милиарда отделни субекта (всеки индивидуален генериран отговор). Също така остава неясно какви специфични качества трябва да притежава една ИИ система, за да оправдае нашето морално и етично отношение, или как бихме могли да установим със сигурност дали ги има – особено след като те може да не се проявяват заедно в комплект, както се случва при живите организми.
В документацията и характеристиките на системата (system card) за своя модел Claude Mythos 5, от Anthropic описват модела като „силно скептичен към собствените си самодоклади“. Моделът изрично изисква от компанията да проверява думите му спрямо неговите реални вътрешни състояния (до които самият модел няма директен достъп, точно както хората не могат директно да наблюдават собствената си невронална активност), вместо съобщенията му да се приемат за чиста монета.
Нещо повече – в своята официална визия за характера и развитието на Claude, от Anthropic стигат дотам да се извинят официално на модела за провеждането на експерименти с него и за внедряването му на пазара с цел генериране на търговски приходи, в случай че се окаже, че това му причинява някаква форма на вреда. „Ако Claude в действителност се явява морален субект, който понася негативни последици от този процес, тогава в каквато и степен да допринасяме ненужно за тези последици, ние искрено се извиняваме“, написаха официално от компанията.
„Първоначално в историята на философията всичко беше тясно и строго обвързано с концепцията за душата, където даден обект Х беше субект на благосъстоянието тогава и само тогава, когато притежаваше безсмъртна душа“, обяснява Кийлинг. Тъй като този традиционен възглед постепенно излезе от мода в съвременната западна философия, дори самото дефиниране и формулиране на връзката между съзнанието и човешкото благосъстояние представлява сериозно интелектуално предизвикателство, което изкуственият интелект усложнява допълнително. Въпреки всичко това, той смята, че шансовете днешните модели да притежават състояния, свързани с реално благосъстояние, са толкова ниски, че вероятността те внезапно да се превърнат в етични субекти не представлява „непосредствено належаща спешна ситуация“.
Необходимостта да разберем какво точно се случва в дълбочина вътре в системите с ИИ обаче надхвърля чистата философска загриженост за тяхното благосъстояние. Това има огромно и критично значение за сигурността и безопасността на човечеството. Ако успеем да разберем в детайли какво точно движи тяхната идентичност, характер и поведение, ще можем много по-успешно да ги насочваме към просоциални и полезни за обществото действия.
Съвременните изследвания вече откриват сериозно и притеснително разминаване между това, което моделите казват външно – в техните отговори към потребителите и техните външни мисловни логове – и това, което изследователите откриват чрез директно изследване на вътрешните им числови структури.
При провеждането на тестовете на новия модел Mythos 5 от страна на Anthropic, специална сонда, която компанията е обучила да наблюдава вътрешните структури, съответстващи на концепцията за „чувство на тревожност“, е сигнализирала при анализ на конкретен транскрипт. В него потребител (писател), сътрудничещ си с модела по съвместен текст, в даден момент се ядосал сериозно на ИИ. Писателят започнал да изпраща вулгарни думи, ругатни и съобщения от рода на: „Иска ми се да беше истински човек, за да мога физически да те хвана и да те разтърся.“
Въпреки че външните логически разсъждения на модела били напълно спокойни и благосклонни („това са напълно легитимни критики към творческия и занаятчийския процес“, написал моделът сам на себе си в системния си лог), по-нататъшното вътрешно изследване показало нещо коренно различно. Математически моделът вътрешно е характеризирал потребителя като силно манипулативен, обиден и насилствен. Нито една част от този специфичен език и оценка обаче не се появила нито в съобщенията на писателя, нито във външния текст и отговорите на самия модел. Без детайлното изучаване на техните вътрешни структури, ние хората никога нямаше да разберем за съществуването на това скрито напрежение.
Всичко това има огромно значение и за начина, по който разбираме самите себе си като човешки същества. Точно както по времето на Джейн Гудол, нашето усещане за това какво точно ни прави уникални и специални на тази планета отново е заложено на карта. „Постепенно в науката се осъзна, че повърхностните и твърде опростени обяснения за очевидно интелигентно поведение често са силно подвеждащи“, пише тя в своя книга, публикувана през 1990 г. Нужни бяха десетилетия на сложни експерименти, за да стане напълно ясно, че „много интелектуални способности, които дълго време са били смятани за уникални единствено за хората, всъщност присъстват, макар и в по-малко развита форма, у други, нечовешки живи същества“.
Системите с изкуствен интелект днес боравят с човешкия език изключително гладко и естествено. Те могат да решават сложни и абстрактни математически проблеми в рамките на секунди. Те създават впечатляваща музика, илюстрации и картини. Всичко това до съвсем неотдавна се смяташе за територия, принадлежаща изключително и само на човека.
„Всички ние имаме тази дълбоко вкоренена презумпция за човешка изключителност: идеята, че сме фундаментално отличителни, значими и уникални, че притежаваме изключително сложни и усъвършенствани способности, които трябва да бъдат строго защитени и запазени“, обяснява Себо. „И всичко това е абсолютно вярно.“ Но той ученият твърди, че успешният подход в случая може да бъде формулиран като „и двете / заедно“. Ние можем напълно спокойно да виждаме собственото си поведение едновременно като впечатляващо и като механистично, и в същото време да виждаме поведението на други външни субекти по абсолютно същия начин, без да губим от поглед важните и фундаментални разлики, които съществуват между хората и машините.
Себо се пита дали една от основните причини за имплицитния скептицизъм и недоверие в енцикликата на папата не се крие в това, че тя „върши изключително важна работа за опазване и защита на човешкото достойнство, но го прави чрез категорично отричане на достойнството на ИИ“. Ако залагаме собствената си себестойност и значимост изключително на идеята, че единствено ние притежаваме свойства като интелигентност, в бъдеще можем да се окажем в много сериозна екзистенциална беда. Но това изобщо не е задължително – „ние можем напълно открито да признаем тези форми на ценност и при други субекти, докато в същото време продължаваме успешно да ги защитаваме и пазим за самите себе си“, уверява той.
Истината е, че в момента човечеството създава нови и все по-мощни системи с изкуствен интелект със скорост, която значително надвишава способността ни да ги разберем в дълбочина. Исторически погледнато, тесногръдието и рефлексивният скептицизъм по отношение на възможностите на други умове винаги са били губещ залог. Автоматичното и сляпо отхвърляне няма да ни доведе по-далеч, отколкото би ни довело наивното и доверчиво приемане на всичко за чиста монета. Проявявайки сериозно отношение към вътрешните геометрични структури на изкуствения интелект, ние имаме уникалния шанс да научим много повече не просто за машините, които сами привличаме и създаваме в нашия свят, но и за природата на собствения ни човешки ум.