Microsoft și OpenAI aduc schimbări majore în domeniul inteligenței artificiale (AI) cu noile lor tehnologii de recreare a vocii umane. VALL-E 2 de la Microsoft și Voice Engine de la OpenAI promit să revoluționeze modul în care percepem și utilizăm vocile sintetice.
Microsoft a dezvoltat VALL-E 2, un generator text-to-speech (TTS) capabil să imite convingător vocea umană folosind doar câteva secunde de sunet.
Cercetătorii susțin că VALL-E 2 poate produce o vorbire atât de precisă și naturală încât poate fi confundată cu vocea reală a vorbitorului original.
Această tehnologie avansată este considerată atât de puternică încât Microsoft a decis să nu o facă publică deocamdată.
Voice Engine: Puterea de reproducere a OpenAI
OpenAI a anunțat lansarea Voice Engine, un model AI capabil să cloneze orice voce umană cu o precizie incredibilă după doar 15 secunde de înregistrare audio.
După doi ani de dezvoltare intensă, această realizare tehnologică poate analiza caracteristicile audio și genera o replică sintetică autentică a vocii originale.
Utilizări revoluționare și riscuri
Aceste tehnologii au aplicații variate, de la asistență pentru persoanele cu deficiențe de vedere sau dificultăți de citire, la traducere automată, dublaj în limbi străine și sprijin pentru cei cu dizabilități de vorbire. De asemenea, pot fi utile pentru creatorii de conținut și cercetări în logopedie.
Pericole precum uzurparea identității vocale, furtul de identitate, dezinformarea și crearea de videoclipuri deepfake sunt motive de îngrijorare. Din această cauză, Microsoft și OpenAI nu intenționează să facă VALL-E-2 și Voice Engine disponibile publicului larg în viitorul apropiat.