Отговорът на NVIDIA към open-source общността: Компанията пусна модела Nemotron-3 Ultra за многоагентни ИИ системи
Компанията представи най-големия си отворен езиков модел Nemotron 3 Ultra, предназначен за работа в рамките на сложни многоагентни ИИ-системи. Тя съдържа 550 милиарда параметри и е ориентирана към сценарии, в които ИИ-агентите изпълняват продължителни задачи, взаимодействат помежду си, извикват външни инструменти и запазват контекста през множество работни цикли. Разработката има за цел да намали разходите за изчисления и да повиши производителността.
Появата на Nemotron 3 Ultra е свързана с един от основните проблеми на съвременните ИИ-агенти. С усложняването на задачите агентите са принудени постоянно да обменят големи обеми данни, да съхраняват историята на действията, да координират работата на подагентите и да предоставят междинни резултати. Това води до бърз ръст на броя на обработваните токени, увеличаване на изчислителните разходи и риск от загуба на фокуса при изпълнението на дълги вериги от операции.
Новият модел е изграден върху архитектурата „смес от експерти“ (Mixture of Experts) и съдържа 550 млрд. параметри, от които едновременно са активни 55 млрд. В NVIDIA отбелязват, че Nemotron 3 Ultra е предназначена преди всичко за комплексните етапи на агентни процеси: дългосрочното планиране, анализът на големи масиви от данни, проверката на инженерни проекти, програмирането и вземането на архитектурни решения по време на продължителни работни сесии.
Nemotron 3 Ultra демонстрира конкурентни показатели в редица специализирани бенчмаркове за агентни системи. По-конкретно, моделът показа 91% в теста PinchBench, предназначен за оценка поведението на агентите, и 95% в тестовете за работа с контекст с обем до 1 млн. токена. Освен това разработчиците заявяват петкратно предимство по отношение на скоростта на извеждане в сравнение с редица други отворени модели от същия клас.
В NVIDIA обръщат специално внимание на икономическата ефективност. Според данните на компанията, в тестовете SWE-bench и Terminal Bench 2.0 новият модел е използвал по-малко токени за постигане на резултата, отколкото сравнимите конкуренти. Това е позволило да се намали цената на изпълнението на агентни задачи с 30%, което е важно за корпоративните внедрявания и дългосрочно работещите автономни системи.
За да постигнат такива показатели, разработчиците са внедрили редица архитектурни нововъведения. Сред тях са хибридните слоеве Mamba Transformer за ефективна работа с дълъг контекст, технологията LatentMoE за по-точно маршрутизиране на заявките между експертите на модела и механизма за прогнозиране на няколко токена едновременно (Multi-Token Prediction), ускоряващ генерирането на дълги отговори. Освен това моделът е обучен по новата схема MOPD, при която получава обратна връзка едновременно от 10 специализирани модели-учители.
Заедно с Nemotron 3 Ultra NVIDIA пусна два допълнителни отворени модела. Nemotron 3.5 Content Safety е предназначен за откриване на опасно или забранено съдържание на 12 езика и поддържа 23 категории за безопасност. Вторият модел, Nemotron 3.5 ASR, е насочен към разпознаване на реч в реално време и поддържа над 40 езика с закъснение под 100 милисекунди, което позволява използването му в гласови ИИ-агенти.
Всички модели от семейството се разпространяват под новата лицензия OpenMDW-1.1, разработена от Linux Foundation за отворени AI системи. NVIDIA също така е направила достъпни теглата на моделите, обучителните данни и инструментите за дообучение. Nemotron 3 Ultra вече е достъпна чрез Hugging Face, NVIDIA NIM и редица облачни платформи, включително Amazon SageMaker, Google Cloud и Microsoft Foundry.