AGI 2030: агенти, Gemini и новата научна ера на DeepMind
AGI вече не изглежда като далечна теория, но ѝ липсват няколко критични компонента, казlа основателят и главен изпълнителен директор на Google DeepMind Демис Хасабис в интервю за YouTube-канала Y Combinator, определяйки хоризонта за AGI около 2030 г.
Неговата позиция е ясна: повечето архитектурни компоненти вече съществуват, но една или две липсващи идеи биха могли да определят окончателния пробив.
Какво наистина липсва на AGI: памет, постоянство и дългосрочно мисленеДнешните големи модели разчитат на мащабно предварително обучение, RLHF и вериги за разсъждение. Според Хасабис, тези компоненти почти сигурно ще станат част от окончателната AGI архитектура. Вече не е възможно да се върнем назад и да ги считаме за задънена улица.
Но има и слабости.
Първо, непрекъснато учене. Моделите остават по същество „статични“ – те не интегрират нови знания по начина, по който го прави човешкият мозък; Второ, дългосрочно разсъждение и поведенческа стабилност; Трето, механизми на паметта.Контекстните прозорци от един милион токена изглеждат големи, но ако записвате видео или ежедневни взаимодействия, това е достатъчно само за около 20 минути. Бруталното „зареждане на всичко в контекст“ не е елегантно решение. Необходими са по-ефективни механизми за избор на подходящи преживявания – аналогично на консолидацията на невробиологичната памет.
Демис Гасабис ни напомня, че първият агент на DeepMind за Atari (DQN) през 2013 г. вече е използвал повторно възпроизвеждане – техника, заимствана от изследванията на хипокампуса. Но настоящите подходи все още изглеждат като временни конструкции.
Агентите не са реклама, а стратегически път към AGIОт основаването на DeepMind през 2010 г., Демис Гасабис определя агентивността като централен принцип. Системата трябва не само да отговаря на заявки, но и да формира цели, да планира действия и активно да решава проблеми. Така са работили агентите на Atari, AlphaGo, AlphaZero и AlphaStar.
Според Хасабис, AGI е невъзможен без „активна система, която активно решава проблеми“. Пасивните езикови модели са само част от архитектурата. Агентите са оперативната форма на интелигентност.
Въпреки вълната от експерименти с десетки агенти, работещи с часове, той признава, че пазарът все още не е виждал продукт от ААА мащаб, изграден изцяло със системи от агенти. Прототип – да. Хит, продаващ милиони копия – не. Това означава, че технологията е в експериментална фаза, а не в зряла.
Основателят на DeepMind очаква, че в рамките на 6-12 месеца ще се появят примери за фундаментална стойност, първо поради рязкото увеличение на човешката производителност (ефектът „1000ד) и едва след това поради по-голямата автономност на системите.
Защо Gemini е създаден мултимодален от първия ден?Gemini на Google DeepMind е проектиран от самото начало като мултимодална система. Демис Гасабис открито признава, че това е затруднило стартирането, тъй като би било по-лесно да се съсредоточи само върху текст, но стратегически това решение създава предимство.
Мултимодалността е необходима за изграждане на световни модели и вътрешни симулации на света. Тя е от решаващо значение за роботиката, автономните системи, устройствата с добавена реалност и дигиталните асистенти, които работят във физическа среда.
Gemini вече е интегриран в екосистемата на Google – от Търсене с AI Overviews до Android, YouTube, Maps и Waymo. За такива сценарии системата трябва да разбира пространствения контекст, интуитивната физика и околната среда.
Ето защо, според Гасабис, мултимодалните фундаментални модели ще станат основа за новото поколение роботизирани системи.
Малките модели стават стратегически мощни: дестилацията като оръжиеGoogle DeepMind традиционно изгражда най-големите frontier модели, но ключовата компетенция на екипа е дестилацията. Основателят на DeepMind подчертава, че шест месеца до година след пускането на флагмански модел, неговите възможности се появяват в компактни версии.
Flash моделите постигат около 90–95% от качеството на флагманите при значително по-ниска цена и латентност. Това е критично за мащабирането: продуктите на Google обслужват милиарди потребители.
Моделът Gemma е пример за тази стратегия, с около 40 милиона изтегляния за 2,5 седмици. Той не вижда фундаментално информационно ограничение за дестилацията. Може да има теоретично ограничение, но той смята, че индустрията все още е далеч от него.
Компактните модели откриват нови сценарии: локална обработка на данните, подобрена поверителност, роботика, периферни устройства. Големите езикови модели остават „оркестрации“, но голяма част от интелигентността е преместена по-близо до потребителя.
AlphaFold като шаблон за научен пробивAlphaFold се превърна в пример за това как изкуственият интелект решава „основни“ научни проблеми. Днес повече от 3 милиона изследователи използват резултатите му и почти всяко ново разработване на лекарство преминава през етап, използващ AlphaFold.
Демис Гасабис описва модела на успеха:
масивно комбинаторно пространство за търсене; ясна целева функция; достатъчно количество данни или симулатор.Същият принцип важи и за намирането на молекули за лечение на болести, ако физиката позволява решение, изкуственият интелект може да го намери по-ефективно.
Следващият хоризонт е „виртуалната клетка“. DeepMind изчислява, че пълноценна клетъчна симулация е на около 10 години разстояние. Досега компанията работи върху модел на клетъчното ядро като самостоятелен подсистемен сегмент.
Способен ли е изкуственият интелект да прави истински научни открития?Моделите вече решават сложни математически проблеми, но Демис Гасабис прави ясна граница между решаването на проблем и създаването на нова хипотеза.
Той формулира така наречения „тест на Айнщайн“: ако на дадена система се преподават знания до 1901 г., може ли тя самостоятелно да стигне до откритията от 1905 г.? Засега няма такива примери.
Според него, съвременните системи работят предимно в рамките на известни модели или тяхната екстраполация. Следващото ниво е аналогово мислене и създаването на нови концептуални рамки.
Според него това не е магическа бариера, а вероятно липсата на една или две ключови идеи в архитектурата.
AGI в средата на 10-годишен deep tech цикълАко хоризонтът на AGI е 2030 г., това означава, че той ще се появи в рамките на текущите 10-годишни цикли на дълбоки технологии. Основателите трябва да вземат това предвид.
Бъдещето вероятно няма да бъде „един гигантски мозък“. По-скоро ще бъде система от инструменти: общ модел, който използва специализирани модули от рода на AlphaFold като отделни инструменти.
Той е убеден, че най-обещаващата област е пресечната точка на изкуствения интелект с материалознанието, биологията, физиката и другите сложни дисциплини. Именно тук се раждат пробиви, които е трудно да се повторят само чрез актуализиране на API.
AGI 2030: защо появата на общия интелект ще промени deep tech в средата на цикъла?Демис Хасабис оценява хоризонта за появата на AGI около 2030 г. Ако един deep tech проект продължи 10 години, това означава, че AGI ще се появи в рамките на текущия цикъл, а не след него.
Той подчертава: трябва да изградим компании и инфраструктура, които могат да интегрират AGI, ако той се появи в разгара на тяхното развитие.
AGI 2030 не е краят, а началото на следващата фаза и това е, което прави този момент стратегически: тези, които вземат предвид появата на общия изкуствен интелект в архитектурата на своите решения днес, ще получат системно предимство утре.