Китайската компания Z.ai пусна на пазара AI модела GLM-5.2, който веднага зае първото място в класацията Artificial Analysis. Цялото семейство AI модели GLM-5 е обучено изцяло на процесори Huawei Ascend 910B, като оборудване на Nvidia не е било използвано. Докато САЩ се опитват да ограничат достъпа до най-мощните AI модели Fable 5 и Mythos 5, Китай пуска модел с отворен код, който може да бъде изтеглен и стартиран локално.
На 17 юни Z.ai публикува официалните резултати от бенчмарковете на GLM-5.2. Тези показатели поставят GLM-5.2 в наистина конкурентна позиция в сравнение със затворените западни AI модели. В класацията на Code Arena, базирана на сляпо двойно гласуване от хора, GLM-5.2 зае общо второ място с резултат 1595 точки и първо място сред отворените AI модели, тъй като Fable 5 беше премахнат от извадката на Arena след спирането му.
В SWE-bench Pro, реален бенчмарк за решаване на задачи от GitHub, GLM-5.2 събра 62,1 точки, изпреварвайки GPT-5.5 на OpenAI с резултат от 58,6 точки. В Design Arena GLM-5.2 заема безспорно първото място. Въпреки това, в SWE-Marathon (най-взискателният тест за оценка на агентното кодиране с дългосрочен хоризонт) GLM-5.2 събра едва 13,0 точки срещу 26,0 за Claude Opus 4.8.
Според индекса за изкуствен интелект на Станфордския университет за тази година, общата разлика в производителността между най-добрите американски и китайски AI модели е намаляла до 2,7 процентни пункта, но предимството на американските AI модели се запазва при най-сложните задачи за логическо мислене, разработени специално с цел предотвратяване на манипулации.
GLM-5.2 използва Mixture-of-Experts (MoE) архитектура с 744 млрд. параметри, от които за всеки извод се използват приблизително 40 млрд. Механизмът за маршрутизация избира 8 от 256 специализирани експертни подмрежи за всеки токен, като оставя останалите неактивни, което позволява на модела да поддържа авангардни възможности, без да се заплащат изцяло изчислителните разходи при всяко запитване.
Най-значимата архитектурна особеност за използване в дълги контексти е интеграцията на механизма за разредено внимание (DeepSeek Sparse Attention, DSA). Вместо да изчислява пълно квадратично внимание към всички токени в контекстния прозорец, което става непосилно скъпо при един милион токени, DSA се фокусира избирателно върху най-релевантните токени. Това прави използването на контекстуален прозорец от 1 млн. токена реално, а не теоретично. Именно DSA позволява на GLM-5.2 да обработва целия обем код само с едно извеждане.
Компромисите в обучителния стек на Huawei Ascend са очевидни. GLM-5.2 генерира приблизително 17–19 токена в секунда при извеждане, в сравнение с 25–30 и повече токена в секунда при конкурентите, използващи чипове на Nvidia. Тази разлика в пропускателната способност отразява както допълнителните разходи за маршрутизиране на MoE, така и по-ниската пропускателна способност на чипа на Ascend в сравнение с процесорите от серията H100 на Nvidia.
Обучението на модела GLM-5.2 е отнело приблизително с 15% повече изчислително време, отколкото подобни цикли на чипове на Nvidia. Според оценки на експерти, тренировъчният цикъл е струвал около 25 млн. долара, което е значително по-малко от разходите за подобни тренировъчни цикли на водещи AI модели в САЩ. Това стана възможно благодарение на сравнително ниската цена на чиповете Ascend и държавните субсидии от правителството на Китай.
Близостта до еталонните показатели и полезността в реалния свят не са едно и също нещо. При най-сложните тестове от ARC-AGI-2, които проверяват нови, гъвкави разсъждения, а не заучени шаблони, водещите китайски модели отстъпват значително на американските. Според оценките на експертите от Epoch AI изоставането възлиза средно на седем месеца по целия индекс на водещите възможности. Въпреки това моделът GLM-5.2 съкрати сроковете за достигане на паритет с еталонните показатели по-бързо, отколкото очакваха независимите наблюдатели.
Аргументът в полза на експортния контрол върху водещите американски модели се основава отчасти на предположението, че китайските лаборатории значително изостават в усвояването на водещите технологии. Но ако китайският модел успее да демонстрира съответствие с основните търговски възможности на Fable до края на 2026 г., ще възникнат основателни съмнения относно целесъобразността на ограниченията, наложени от правителството на САЩ.
AI моделите GLM 5.2, публикувани в Hugging Face са наистина безплатни: лиценз MIT, липса на ограничения за използване, липса на регионални блокировки, липса на възможност някое правителство да отнеме достъпа след изтеглянето. Разработчик, който самостоятелно хоства GLM-5.2 е защитен както от експортните разпоредби на САЩ, така и от достъпа до данните от страна на китайското правителство. Самостоятелният хостинг изключва изтичането на данни чрез API, но изисква около 1,5TB памет на графични процесори, което е непосилно за екипи, които не разполагат с инфраструктура от корпоративен мащаб.
Облачният API обаче е съвсем друго нещо. Z.ai е компания от Пекин, регистрирана и действаща в съответствие с китайското законодателство. Китайският „Закон за националното разузнаване“ изисква всички китайски организации и граждани да „подкрепят, помагат и сътрудничат на държавната разузнавателна дейност“. „Законът за сигурността на данните“ и „Законът за киберсигурността“ добавят допълнителни разпоредби относно локализирането на данните и достъпа на правителството. Това са фиксирани правни условия, които се прилагат независимо от декларираната политика за поверителност на Z.ai и физическото местоположение на нейните сървъри.
През януари 2025 година САЩ включи Z.ai в своя санкционен списък, позовавайки се на ролята на компанията в насърчаването на модернизацията на китайската армия чрез разработването на AI. През май тази година. законодателите от Камарата на представителите на САЩ започнаха официално разследване на рисковете за киберсигурността, свързани с китайските AI модели в критичната инфраструктура, като включиха Z.ai сред компаниите, които са под внимателно наблюдение.