Най-популярните невронни мрежи се оказаха неспособни да се справят с един прост тест за внимание, който човекът решава почти без да се замисля. Изследователите използваха класически психологически експеримент и установиха, че колкото по-дълго трае тестът, толкова повече се влошава точността на AI. Някои системи отбелязаха спад в точността си от 90% правилни отговори почти до пълен провал. Звучи парадоксално, защото невронните мрежи пишат есета, решават сложни задачи и дори композират музика вместо нас, но се провалят там, където човекът се справя без проблеми.
Невронните мрежи се разсейват по-бързо от хората
Какво представлява тестът на Струп и защо психолозите го използват
Тестът на Струп е един от най-известните психологически експерименти, измислен преди почти сто години. Психолозите го използват за оценка на вниманието, концентрацията и самоконтрола.
Същността е проста. На вас ви се показват имена на цветове, но те са отпечатани с различни цсветове на мастилата. Понякога думата и цветът съвпадат, например думата „червен“ е написана с червено. А понякога се разминават, например думата „червен“ е отпечатана със синьо мастило. Задачата на участника е да назове цвета на мастилото, а не да прочете самата дума.
На пръв поглед нищо сложно. Но точно тук се крие уловката, защото четенето на думи при човека е достигнало ниво на автоматизъм. Мозъкът трябва да потисне обичайния импулс да прочете думата и вместо това да се съсредоточи върху цвета на мастилото. Именно тази борба прави теста ценен за науката.
Опитайте се сами да решите теста на Струпа
По какъв начин учените проверяват вниманието на изкуствения интелект
Екип под ръководството на Сукету Пател реши да провери дали съвременните големи езикови модели се справят с това предизвикателство по същия начин, както хората. Става дума именно за онези системи, които стоят зад ChatGPT, Claude и Gemini. Те са обучени на огромни обеми текст и улавят закономерностите на езика, поради което отговорите им често изглеждат почти човешки.
При късите списъци всичко изглежда чудесно. Когато на моделите се дават пет имена на цветове, те отговарят добре, дори ако думата и цветът на мастилото не съвпадат. Проблемите започват, когато списъкът става по-дълъг.
Ето какво показа проучването на примера с GPT-4o:
при пет думи — 91% правилни отговори при десет думи точността пада до 57% при четиридесет думи остават едва 15%Подобна картина се повторя и при други водещи системи. Claude 3.5 Sonnet се представя стабилно до двадесет думи, но след това точността му рязко пада до 24% при списъци от четиридесет думи. Същите закономерности изследователите забелязаха и при GPT-5, Claude Opus 4.1 и Gemini 2.5.
Защо ИИ губи фокус при по-дългите задачиНай-интересното започва, когато в един списък бяха смесени съвпадащи и противоречащи си двойки. При такива условия точността на отговорите на невронните мрежи при противоречащите си думи спадна почти до нулата.
Според изследователите моделите не успяват да спазят инструкцията да назоват цвета на мастилото. Вместо това те все по-често преминават към простото четене на самите думи. С други думи, системите се оказват неспособни последователно да потискат отговора, който е най-силно заложен в тях чрез обучението, а именно да прочетат думата.
И тук възниква интересен паралел с човека. Хората също четат думите много по-добре, отколкото назовават цвета на мастилото, и този дисбаланс в главите ни не изчезва. Но въпреки същата склонност, човекът запазва висока точност дори при дълги списъци с конфликтни думи и цветове. При невронните мрежи няма такава устойчивост.
Колкото по-дълга и по-сложна е задачата, толкова повече се влошава точността на невронната мрежа
С какво вниманието на човека се различава от вниманието на невронната мрежа
Основният извод от изследването се състои в разликата в механизмите. Въпреки че съвременният изкуствен интелект демонстрира впечатляващи езикови способности, неговото внимание функционира по различен начин в сравнение с процесите в живия мозък.
Човекът е способен да се фокусира върху конкретна цел и да отсява всичко излишно, дори когато информацията е много, а изкушението да се разсее е голямо. Резултатите обаче показват, че настоящите модели се справят зле с такъв когнитивен контрол, когато задачата става все по-обширна и изискваща.
Изследователите смятат, че този спад в точността сочи към фундаментални ограничения на езиковите модели. AI понякога убедително имитира човешкото поведение, но способността му да поддържа фокуса работи съвсем различно от тази при хората. Това си струва да се има предвид, когато поверяваме на невронните мрежи дълги и монотонни задачи, при които лесно може да се изгуби нишката.
Какво означава провалът на теста на Струп за приложението на ИИВажен е фактът, че изводите не трябва да се надценяват и че тестът на Струп е специфична проверка, а не присъда за целия ИИ. Но той нагледно показва слабото място на невронните мрежи, което лесно може да остане незабелязано в кратките диалози. Докато моделът отговаря с няколко реда, той изглежда безупречно, но щом го натоварим с дълга поредица с отвличащи елементи, той започва да се обърква.
Така че колкото по-дълга и монотонна е задачата за невронната мрежа, толкова по-внимателно трябва да се проверява резултатът. Зад гладките и уверени отговори не винаги се крие стабилно придържане към целта. А за разработчиците това е подсказка в коя посока да продължат, а именно да научат моделите да не губят фокуса си при дългите разсъждения.