Imagen: ciò che osiamo immaginare

01 luglio 2022

Di Francesco Subiaco

"Orsacchiotti che nuotano all'evento 400m Butterfly delle Olimpiadi", "Una galleria d'arte che espone dipinti di Monet. La galleria d'arte è allagata. I robot girano per la galleria d'arte usando le tavole a pale" con Imagen, Google, non si sta accontentando più di essere solamente il custode dell'immaginario collettivo della società globale, ma ne vuole diventare anche il creatore. Tramite "Imagen", infatti, l'azienda fondata da Larry Page, non solo sta riscrivendo il mondo dei programmi text-to-image, ma sta permettendo, grazie all'intelligenza artificiale, di rimodellare l'iconografia della società dei consumi. Ma che cos'è Imagen e come funziona? Esso è un programma text-to-image, che quindi da un testo definito riesce a rappresentare una immagine, con un grado di fotorealismo senza precedenti ed una innovativa capacità di comprensione linguistica, basata su sistemi di comprensione del testo di grandi dimensioni, come il T5, che allineati con modelli di diffusione da testo a immagine, restituiscono una resa estremamente fedele di ciò che un utente vuole rappresentare attraverso una discrezione sintetica.

Una innovazione ancora in una fase iniziale, il brain team di Google ha infatti realizzato solo una demo di questo programma di intelligenza artificiale, che basandosi sull'uso di Machine Learning e Deep Learning, permette all'aumentare delle dimensioni testuali, ovvero dei dettagli forniti, una attinenza e fedeltà sempre maggiore agli intenti contenuti nel testo, che la rendono di gran lunga, superiore nella resa e nel realismo, di altri programmi AI text to image, come DALL-E 2 di Microsoft, oppure VQ-GAN+CLIP o Latent Diffusion Models, con cui Imagen si è confrontata tramite il benchmark Drawbench. Un un insieme di test (collaudo o prova) del software volti a fornire una misura delle prestazioni di questi diversi programmi che vengono confrontati e comparati a partire da 200 contenuti testuali con cui la nuova arrivata di Google compete insieme agli altri programmi text to image, a cui segue una valutazione qualitativa basata sul giudizio di fotorealismo di operatori umani, che ha mostrato una evidente superiorità di Imagen rispetto ai suoi competitor sottolineata anche da una altra benchmark, Coco, in cui con la valutazione di FID zero-shot di 7,27, ha superato Dall-E 2 di Microsoft, che aveva fino a quel momento rappresentato il modello con le migliori prestazioni disponibili.


Una innovazione che però si trova in una fase ancora limitata, soprattutto alla luce dell'impatto sociale e dei timori etici causati da questa tecnologia, poiché come ha sottolineato il brain team di Google: "Si basa su codificatori di testo addestrati su dati non curati su scala web e quindi eredita i pregiudizi sociali e i limiti dei modelli linguistici di grandi dimensioni. Di conseguenza, c'è il rischio che Imagen abbia codificato stereotipi e rappresentazioni dannose, il che spiega la nostra decisione di non rilasciare Imagen per l'uso pubblico senza ulteriori garanzie". Un potenziale che presenta ancora molti rischi, soprattutto alla luce di questi parametri di alto realismo che potrebbero essere sfruttati per comportamenti dannosi, come la manipolazione dell'informazione, la diffusione di contenuti pericolosi, o a carattere sessuale, lesivi, che hanno portato lo staff Google a somministrare solo una demo indicativa delle capacità di questo nuovo progetto.

I testi disponibili nella demo, dal carattere surreale e bizzarro, come: "Una statua in marmo di un DJ Koala davanti a una statua in marmo di un giradischi. Il Koala indossa grandi cuffie di marmo". "Un unico fascio di luce entra nella stanza dal soffitto. Il raggio di luce illumina un cavalletto. Sul cavalletto c'è un dipinto di Rembrandt di un procione" oppure "Una scultura trasparente di un'anatra in vetro. La scultura è di fronte a un dipinto di un paesaggio". Contenuti apparentemente innocui che hanno un potenziale preoccupante sia per il loro abuso, ma anche per la loro capacità di rimodellare gli archetipi e le icone della nostra società, portando cambiamenti antropologici, a seguito di una sua possibile diffusione totale, che potrebbero riscrivere il nostro modo di rappresentare il mondo. Solo guardando le stravaganti prove della demo di Imagen capiamo che ci troviamo davanti ad una tecnologia innovativa che non metterà più limiti a ciò che osiamo immaginare, ma non sappiamo ancora se ciò ci piacerà.