Невронната мрежа на Facebook започна да говори с гласа на Бил g__тс

.td_uid_42_5d08e00b7dc8b_rand.td-a-rec-img{text-align:left}.td_uid_42_5d08e00b7dc8b_rand.td-a-rec-img img{margin:0 auto 0 0}

Шон Васкез и Майк Луис от Facebook представиха синтезатор на реч с нов и много ефективен принцип на работа. В акаунта на разработчиците в GitHub е качена колекция от тракове, в които се чува как невронната мрежа съвсем убедително имитира речта на основателя на Microsoft. На записите се чуват няколко фрази с произволен текст, в които не само съвсем точно се копира тембъра на гласа на Бил Гейтс, но и съвсем подробно и тънко се имитират естествените интонации, а това досега бе недостижимо за алгоритмите с елементи на изкуствен интелект.

Създаденият от Facebook модел за синтез на човешка реч се нарича MelNet и това не е първата колекция имитации на човешка реч. Преди виртуалния двойник на Бил Гейтс бяха представени гласовете на Джордж Такеи, Стивън Хокинг и други знаменитости. Въпреки че невронната мрежа е тренирана с материали от аудиокниги и речи, досега не можеше да се избегнат характерните металически нотки в изкуствения глас.

.td_uid_41_5d08e00b7d885_rand.td-a-rec-img{text-align:left}.td_uid_41_5d08e00b7d885_rand.td-a-rec-img img{margin:0 auto 0 0} https://www.kaldata.com/wp-content/uploads/2019/06/sample-0.mp3 https://www.kaldata.com/wp-content/uploads/2019/06/sample-1.mp3 https://www.kaldata.com/wp-content/uploads/2019/06/sample-2.mp3 https://www.kaldata.com/wp-content/uploads/2019/06/sample-3.mp3

Разработчиците обясняват направения пробив с това, че за разлика от WaveNet на Google и другите съвременни технологии за генериране на реч, MelNet е обучена не чрез графичното представяне на амплитудата на звуковите вълни, а чрез спектрограми. Методът на амплитудите прекалено много раздробява звуковия поток, понеже фиксира сигнала за период от милисекунди, което затруднява изкуствения интелект да извърши необходимите корелации. В резултат от това, някои характеристики на речта като височина и тембър се улавят, но се възпроизвеждат в ущърб на други параметри на гласа – интонация и фонемен състав. Спектрограмите са много по-наситени от информационна гледна точка, а данните в тях са по-компактни и комплексният анализ на звуковия поток става без изкривявания.

Въпреки това, според създателите на MelNet, технологията все още е далече от съвършенството. Примерите в GitHub не случайно са само къси фрази: засега невронната мрежа може съвсем точно да озвучава интонациите само за някои отделни къси фрази. Обработката на сложни смислови масиви, като например драматичното четене на неголям разказ или монолог, в който се променя емоционалността, засега не са възможни.

Но и в сегашния си вид новата технология може да се използва в гласовите асистенти, в кол центровете, в така наречените горещи линии и в другите подобни ситуации, в които общуването става по предварително зададен сценарий и лесно се автоматизира. Интернет изданията отбелязват и огромния потенциал за нелегалното използване на MelNet. Това е разбираемо, понеже съвсем точното генериране гласа на определен човек може да се използва за фалшифициране на неговата реч и изговор. Васкез и Луис не споделиха какви са им плановете за използването на тази технология и как ще бъдат контролирани рисковете.

Прегледи	144
Коментари	0
Добавена на	18 Юни 2019
Източник	Kaldata