Кухни по поръчка | Съвети за мода и красота | Ваучери за намаления

Изследователи от Microsoft предупредиха, че AI моделите все още не са готови за сложни задачи

Изследователи от Microsoft установиха, че дори най-усъвършенстваните големи езикови модели (LLM) допускат съществени грешки при изпълнението на продължителни многоетапни задачи. По време на тестовете водещи AI модели като Gemini 3.1 Pro, Claude 4.6 Opus и GPT 5.4 загубиха средно 25% от съдържанието на документите, които им бяха възложени за автономна работа.

Екипът на Филип Лабан, Тобиас Шнабел и Дженифър Невил от Microsoft Research разработи бенчмарка DELEGATE-52, който имитира работни процеси в 52 професионални области, например при писане на код, записки или кристалография. AI моделите бяха оценявани по способността им да запазват целостта на документите след 20 цикъла на обработка, като за праг на готовност се считаше резултат не по-нисък от 98%.

Резултатите показаха, че AI моделите се справяха по-добре със задачите по програмиране и по-зле с обработката на естествен език.

Повреда на документите и съответно понижаване на оценката до 80% и по-ниско се случи в повече от 80% от комбинациите. Най-добрият от тестваните AI модели, който се оказа Google Gemini 3.1 Pro, отговаряше на критериите само в 11 от 52 области.

Грешките не възникваха постепенно, а скокообразно – например, за един цикъл на взаимодействие AI моделът можеше да загуби от 10 до 30 точки. По-съвършените AI модели (Gemini 3.1 Pro, Claude 4.6, GPT 5.4) избягваха дребните грешки, като отлагаха тяхната обработка за по-късни етапи при по-малко взаимодействия. Същевременно се оказа, че при работа на AI моделите с достъп до инструменти в режим на агентно управление резултатите им не само не се подобряваха, но дори се влошаваха към края на цикъла средно с 6%.

Според учените, потребителите все още трябва внимателно да контролират работата на AI системите, когато им делегират правомощия, тъй като настоящите AI модели са готови за автономна работа само в тесни области. В същото време авторите на бенчмарка признават напредъка на LLM и отбелязват, че например семейството от AI модели на OpenAI за 16 месеца е подобрило показателите си за производителност от 14,7 до 71,5%.

Коментари
Все още няма коментари