Lo sapete, l’intelligenza artificiale è il tema di questi mesi: ha appena iniziato un’esplosione che solo nei prossimi anni ci mostrerà tutti i suoi effetti.
Sulle vele di questa tecnologia c’è anche il soffio di Microsoft: di recente ha usato l’AI per migliorare le funzionalità delle sue app, e ora potrebbe investire ben 10 miliardi di dollari in OpenAI, l’azienda creatrice di ChatGPT. Oggi però mi giunge voce di un altro progetto Microsoft, VALL-E, che ha dell’incredibile.
Questo strumento all’avanguardia è stato addestrato su un vasto quantitativo di dati vocali, oltre 60.000 ore di lingua inglese. Un data set che lo rende, secondo l’azienda di Redmond, “centinaia di volte più grande dei sistemi esistenti”. Compresi quelli più avanzati.
E cosa ha imparato a fare VALL-E? Niente, una bazzecola. Riproduce e imita perfettamente la voce di chiunque, dopo averla ascoltata per appena tre secondi.
Un replicatore di voce?
Non è solo questo. VALL-E è una vera e propria rivoluzione nel campo dell’intelligenza artificiale vocale. Perché riproduce con straordinaria precisione le emozioni, i toni vocali e l’ambiente acustico presenti in un dato campione, ed è un gigantesco passo avanti rispetto ai sistemi di sintesi vocale (TTS) esistenti. In altre parole, la voce di VALL-E suona molto più come quella di un essere umano che come quella di un’intelligenza artificiale.
Sul suo profilo Linkedin (visitatelo), il digital strategist Alberto Giacobone linka una piccola libreria di campioni vocali creati da VALL-E e messi online sulla piattaforma GitHub. I risultati sono sorprendenti: in molte clip sono riprodotti perfettamente l’intonazione e l’accento delle voci degli oratori.
Alcuni esempi sono meno convincenti, e questo mostra come VALL-E non sia ancora un prodotto finito. Tuttavia, l’output complessivo è così convincente che ci lascia a bocca aperta.
Grossi rischi, grosso potenziale
È chiaro che questa tecnologia solleva preoccupazioni sui potenziali rischi di uso improprio, come il furto di identità. VALL-E potrà creare deepfake vocali indistinguibili da persone reali, che potrebbero essere usati per ingannare le persone in molti casi e modi.
Per contrastare questa minaccia, nel documento di presentazione di VALL-E (ve lo linko qui) Microsoft fa sapere di stare lavorando allo sviluppo di un modello di rilevamento che sappia distinguere una voce reale da una voce sintetiche.
Nonostante i (grossi) rischi, però, strumenti come VALL-E potrebbero essere particolarmente utili per aiutare le persone a ritrovare la voce dopo un incidente, per creare senza sforzi podcast e audiolibri più naturali e… come sempre, il limite è la fantasia.