AI преводът на Google вече може да имитира и гласа на говорещия
Компанията усилено разработва своя изкуствен интелект
~ 1 мин.
Изкуственият интелект (AI) на Google продължава да усъвършенства своя езиков превод и наред с подобряването на семантичното му представяне, впечатление прави вниманието и към детайла. В случая става въпрос за гласовите характеристики на софтуера. Технологията вече е в състояние не само да възпроизвежда звуков превод, но и да дублира оригиналния тон и тембър на човека. Крайният резултат не е съвършен, но определено прави впечатление, че гласът на говорителя е пресъздаден сравнително успешно, става ясно от материал по темата в TechnologyReview.
Това става чрез промяна в традиционните похвати на транслационните системи, които преобразуват аудиото в текст, след което го превеждат и накрая ресинтезират звука. По този начин обаче се губят характеристиките на оригиналния глас. Именно тук идва и иновацията на Google, която е свързана с директното преобразуване на аудиото, без междинни стъпки.
Новата система се нарича Translatotron и има три компонента, всеки от които проследява аудио спектрограмата (визуална снимка на честотите, използвани при възпроизвеждане на звука) на говорещия.
Първият компонент използва невронна мрежа, която съпоставя аудиоспектрограмата на входа и на изхода. Вторият преобразува спектрограмата в аудио вълна, а третият позволява да се насложат вокалните характеристики на оригиналния говорител обратно върху аудиото на изхода.
Този подход не само произвежда по-нюансирани преводи, като запазва важни невербални сигнали, но на теория трябва също да минимизира грешката в превода, тъй като свежда задачата до изпълнението на по-малко стъпки.
Досега Translatotron е тествана за превод само от испански към английски.