Новият AI модел на Google 4 пъти ускорява генерирането на текст
Google представи DiffusionGemma – експериментален езиков модел, който генерира текст чрез дифузия, а не последователно, лексема по лексема. Моделът паралелно генерира блок от 256 лексеми и ги усъвършенства в рамките на няколко прехода. Това прави генерирането с помощта на потребителски графични карти до четири пъти по-бързо и използва ресурсите на графичния процесор по-ефективно, с по-малка зависимост от пропускателната способност на паметта.
Повечето езикови модели използват авторегресивен подход, т.е. генерират текст лексема по лексема, отляво надясно. В облака това последователно генериране е ефективно – сървърите обединяват хиляди заявки, за да натоварят равномерно хардуера. Но когато AI се използва локално за един потребител, процесорът „бездейства“ в очакване на следващия символ. DiffusionGemma решава този проблем, като използва принцип, познат от генераторите на изображения. Точно както невронните мрежи постепенно превръщат визуалния шум в ясна картина, моделът в паралелен режим генерира блок от 256 токена и ги усъвършенства в продължение на няколко паса. Google сравнява това с преминаването от пишеща машина към печатарска машина.
Подходът се базира на изследването на Google в областта Gemini Diffusion и е изграден върху фамилията модели Gemma 4. Той е базиран на архитектурата Expert Blend с 26 милиарда параметъра, от които само 3,8 милиарда са активирани. Моделът изисква 18 GB видеопамет, което му позволява да работи на съвременни потребителски графични процесори.
Новата архитектура осигурява производителност от над 1000 токена в секунда на ускорителя NVIDIA H100 и над 700 токена в секунда на потребителската видеокарта NVIDIA GeForce RTX 5090. Google позиционира модела като решение за сценарии, при които ниската латентност е от решаващо значение, като например интерактивно редактиране на текст.
Още една особеност на DiffusionGemma е двупосочното внимание. Тъй като текстът се генерира паралелно, всеки токен може да вземе предвид контекста на целия фрагмент, включително частите, които все още не са генерирани. Затова моделът е особено полезен за автоматично попълване на код, както и за работа с математически изрази и биологични последователности, където връзката между всички елементи на текста е важна.
За да демонстрира възможностите на модела, Google го адаптира за решаване на пъзели Sudoku. Този тип задачи са трудни за традиционните авторегресионни модели, тъй като правилността на ранните решения често зависи от информация, която се появява по-късно. Дифузионният метод позволява да се разгледа целият контекст наведнъж и да се коригират междинните резултати в хода на работата.
Google подчертава, че иновацията остава експериментална: стандартните модели на Gemma 4 все още дават по-добри отговори и се препоръчват за производствена употреба. Моделът вече е публикуван под лиценза Apache 2.0 в платформата Hugging Face и се поддържа от популярните инструменти за локално внедряване на изкуствения интелект.