Нова АИ Microsoft може да имитира глас било које особе

У четвртак истраживачи Microsoft најавио је нови модел вештачке интелигенције (АИ) под називом ВАЛЛ-Е који може прецизно да опонаша људски глас када му се добије аудио узорак од три секунде. Једном када научи одређени глас, ВАЛЛ-Е може синтетизовати звук те особе која говори било шта, задржавајући емоционални тон звучника.

Његови аутори сугеришу да се ВАЛЛ-Е може користити за висококвалитетно претварање текста у говор, уређивање говора, где се снимак особе може уређивати и мењати из транскрипције текста (што их чини да кажу ствари које првобитно нису рекли), и за креирање аудио садржаја у комбинацији са другим генеративним АИ моделима као нпр РУЦЕНТЕР-КСНУМКС.

Microsoft АИ ВАЛЛ-Е

Microsoft назива ВАЛЛ-Е „Неурал Цодец Лангуаге Модел“ и заснива се на технологији званој ЕнЦодец коју је Мета објавила у октобру 2022. За разлику од других метода претварања текста у говор, које обично синтетизују говор манипулисањем таласним облицима, ВАЛЛ-Е генерише дискретни аудио кодека из текстуалних и акустичних упутстава. У основи анализира како особа звучи, разлаже те информације на дискретне компоненте (зване "токени") захваљујући ЕнЦодец-у и користи податке о обуци да би се упоредио са оним што "зна" о томе како би тај глас звучао ако би изговорио друге фразе напољу узорка од три секунде.

Microsoft обучио ВАЛЛ-Е-ове способности синтезе говора на аудио библиотеци коју је саставио Мета под називом ЛибриЛигхт. Садржи 60 сати емитовања на енглеском језику од више од 7 спикера, углавном преузетих из јавно доступних ЛибриВок аудио књига.

Поред очувања боје гласа и емоционалног тона спикера, ВАЛЛ-Е такође може да симулира „акустично окружење“ аудио узорка. На пример, ако је узорак добијен из телефонског разговора, синтетизовани аудио излаз ће симулирати акустичка и фреквенцијска својства телефонског разговора. Такође узорци Microsoft демонстрирати да ВАЛЛ-Е може да генерише вокалне варијације тембра.

Microsoft АИ ВАЛЛ-Е

Можда због способности ВАЛЛ-Е да потенцијално олакша превару и превару, Microsoft није обезбедио ВАЛЛ-Е код за друге да експериментишу, тако да нећемо моћи да тестирамо његове могућности. Чини се да су истраживачи свесни потенцијалне друштвене штете коју ова технологија може да донесе. У закључку чланка пишу:

„Пошто ВАЛЛ-Е може да синтетише говор који чува идентитет говорника, може да носи потенцијалне ризике од злоупотребе модела, као што је лажна идентификација гласа или лажно представљање одређеног говорника. Да би се смањили такви ризици, биће изграђен модел препознавања који ће разликовати да ли је аудио снимак синтетизован коришћењем ВАЛЛ-Е."

Можете помоћи Украјини да се бори против руских освајача. Најбољи начин да то урадите је да донирате средства Оружаним снагама Украјине путем Савелифе или преко званичне странице НБУ.

Прочитајте такође:

Изворарстецхница

Пријави се

0 Коментари

Ембеддед Ревиевс

Погледај све коментаре

Остали чланци

Нова АИ Microsoft имитира глас било које особе из аудио узорка од 3 секунде

Недавни коментари