Vocaloid. Il passaggio fonetico dall'umano alla macchina

05 agosto 2022

Di Francesco Latilla

Baudelaire nei diari intimi ha lasciato una grossa nota: Io non andrò più a teatro perché quel che ammiro di più è il lampadario, finché gli attori non reciteranno su trampoli e non si decideranno di utilizzare dei megafoni togliendo il suono della banale voce umana che tanto mi secca sentire. La voce umana nuda non ha statura. Questa espressione di Baudelaire credo di averla realizzata, soprattutto per la concezione del megafono che i greci incorporavano nelle maschere. Ora, tremila anni passano invano e come sempre è destino che nasca un cretino, nasco io e riprendo quel discorso figlio dell'antico teatro greco e quindi introduco la strumentazione fonica dove il microfono viene utilizzato come elemento davvero orchestrale. Eduardo stesso quando mi sente leggere Dante non fa che dire di imparare, perché è grande, riflettendo sul fatto che la voce sembra che venga da altrove, poi si sposta, poi poggia, ritorna, poi manca, infine rientra. Si rende conto del grande evento.” 
Carmelo Bene, probabilmente la figura teatrale più audace e insuperabile che sia apparsa nello scenario teatrale italiano durante il secolo breve, fu un autore indispensabile per la conoscenza del mistero fonetico che sin dai tempi antichi rimane tra i più affascinanti per la natura umana. Rimane ancora impressa come un mantra una delle sue massime che recita: “Tutta la storia è storia della phoné”. Ma cos'è davvero la phoné e come si sviluppa nell'uomo durante il suo vivere? il suo esserci? La phoné, il suono, è la parte più ancestrale dell'uomo che nasce nel momento in cui si viene al mondo e di cui non è possibile avere memoria sin dall'inizio proprio perché è il processo esperienziale che l'essere umano percorre a costruirne il relativo ricordo. Bene fu il punto di svolta nell'ambiente teatrale del '900 portando una rivoluzione copernicana, come amava definirla, destrutturando il linguaggio grazie anche a questo suo meticoloso utilizzo dei microfoni, proprio per cestinare l'io, offuscando l'immagine e dunque il soggetto, puntando la visione sul suono, sulla parte sconosciuta dell'essere: "Non solo l'orecchio ascolta, ma anche l'occhio."

Carmelo Bene in scena nel suo spettacolo teatrale "Faust o Margherita" 

Durante gli anni '70 vi furono in Italia diversi approcci alla sperimentazione vocale attraverso l'utilizzo della musica elettronica, tra cui ovviamente bisogna citare il giovane Franco Battiato pronto a demolire, come Bene, il proprio mondo artistico. Basti pensare a brani come Pollution o Areknames, in cui la voce diventa essa stessa uno strumento musicale, ricerca adesso portata avanti da alcuni contemporanei come Cosmo e PopX. Ascoltando quel primo Battiato ci si trova immersi in una disarmonia strumentale e un eco futuristico e alieno dal punto di vista vocale che tendono a generare nuova musica ma demolendo, sulla scia di Stockhausen, il classicismo dell'armonia musicale. Questo breve richiamo sulla phoné e le sperimentazioni su di essa sin dai tempi antichi conduce il nostro studio su qualcosa d'importante, ed inquietante, che sta verificandosi nel presente e che forse prenderà il possesso in un futuro non troppo distante. Sempre più si vocifera che l'AI fagociterà interamente il canto e quindi la voce umana. Ma è davvero possibile? Per rispondere a tale quesito bisogna indietreggiare di alcuni anni e comprendere cosa sono i Vocaloid. Era il 2000 quando il giapponese Kenmochi Hideki dedicò uno studio, insieme all’università spagnola Pompeu Fabra, il cui scopo era volta a costruire un software in grado di emulare la voce umana. Hideki riuscì ad ottenere la fiducia dei recensori e così, pronto al successo, presentò con il proprio team queste sue creazioni al NAMM show il 15 gennaio del 2004. LEON e LOLA, pubblicati da Zero-G il 3 marzo del 2004, furono i primi prototipi in assoluto oltre ad essere le relative prime copie maschili e femminili per l'inglese di Vocaloid Engine stesso. LEON era modellato sulla voce di un vero cantante. Entrambi vennero venduti come Virtual Soul Vocalist. Furono presentati anche allo stand Zero-G Limited durante il Wired Nextfest e vinceranno anni dopo, nel 2005, l'Electronic Musician Editor's Choice Award.


Zero-G ha successivamente rilasciato Miriam, con la sua voce fornita da Miriam Stockley, nel luglio del 2004. In questo modo, nel giro di poco tempo il software Vocaloid ottiene un inarrestabile successo vendendo moltissime copie e arrivando alla seconda versione. Il sogno però è destinato a sfaldarsi a causa della pirateria che bersagliava entrambe le versioni e con le problematiche dovute ad alcune patch non utilizzabili che rendevano incompatibile il Vocaloid con vari aggiornamenti di sistema, soprattutto Windows. Nel giro di soltanto quattro anni la Zero-G cade e al suo posto compare la Yamaha corporation che indubbiamente si rivelerà la forza trainante del software riuscendolo a portare avanti negli anni con diverse versioni, o generazioni, fino alla quinta, pubblicata il 12 luglio del 2018, che è tutt'ora in voga e che sta ampiamente conducendo il Vocaloid a divenire la normalità nell'industria musicale giapponese. Il pacchetto del software VOCALOID5 contiene quattro personaggi: Amy e Chris, Vocaloidi inglesi, e Kaori e Ken, giapponesi, che sono introdotti come Vocaloid standard. Inoltre, nel corso degli anni vi sono state apportate numerose modifiche, aggiornamenti e altri personaggi tra cui il più famoso rimane Hatsune Miku ideato dalla Crypton Future Media e pubblicato nel 2007 per VOCALOID2. Dunque, il quesito da porci è: siamo sicuri che tali invenzioni abbiano semplicemente uno scopo ludico e d'intrattenimento? sono molti i giovani che si recano a concerti in cui a cantare sul palco sono degli ologrammi la cui voce è generata da un vocaloid e che in Giappone ottengono successo. Inoltre sono sempre di più i cantanti "reali" che utilizzano sistemi che generano una voce alterata, come l'autotune ad esempio, e questo genera sicuramente uno squilibrio nel percepire un voce sincera in un brano. Possiamo allora preannunciare una sostituzione dell'uomo riguardo al contesto musicale? Al momento non ci è data prova che tali software possano concretamente prendere il possesso dell'industria musicale su scala globale. Quel che però è ovvio è che sta avvenendo una nuova rivoluzione riguardo alla phoné e al linguaggio orale, un procedimento veloce ed inquietante che secondo molti detrattori potrebbe segnare la fine della voce umana.