DALL-E: creatività o propaganda artificiale?
di Paolo Benanti (blog)
OpenAI, uno dei centri di ricerca leader nel settore delle intelligenze artificiali, ha fatto di nuovo notizia, dopo GPT-3, che era in grado di scrivere da solo un articolo, questa è il turno della pittura e delle illustrazioni. Nasce DALL-E 2, pronunciato Dallì unendo idealmente Salvador Dalì e Wall-E, l’iconico robottino futuristico di un film d’animazione Disney. DALL-E 2 è un modello di apprendimento automatico in grado di generare immagini straordinarie da descrizioni di testo. Preceduto da una versione meno potente, DALL-E 2 migliora la qualità e la risoluzione delle immagini di output grazie a tecniche avanzate di deep learning. Tuttavia, l’operazione non è solo ingegneria.
L’annuncio di DALL-E 2 è stato accompagnato da una campagna sui social media degli ingegneri di OpenAI e del suo CEO, Sam Altman, che hanno condiviso su Twitter meravigliose foto create dal modello di apprendimento automatico generativo: DALL-E è pensato per stupire e impressionare.
DALL-E 2 mostra fino a che punto è arrivata la comunità di ricerca sull’IA per sfruttare il potere del deep learning e affrontare alcuni dei suoi limiti. Fornisce inoltre una prospettiva su come i modelli di apprendimento profondo generativo potrebbero finalmente sbloccare nuove applicazioni creative. Allo stesso tempo, ci ricorda alcuni degli ostacoli che rimangono nella ricerca sull’IA e le controversie che devono essere risolte.
Gli esempi sul sito Web di OpenAI sono stati selezionati con cura e, onestamente, sono impressionanti. Guardando gli esempi condivisi su Twitter, DALL-E 2 sembra aver trovato il modo di rappresentare e riprodurre le relazioni tra gli elementi che compaiono in un’immagine, anche quando sta “inventando” qualcosa per la prima volta: ciò che distingue DALL-E 2 dagli altri modelli generativi è la sua capacità di mantenere la coerenza semantica nelle immagini che crea.
Il modello rimane coerente nel disegnare l’astronauta seduto sul dorso del cavallo e tenendo le mani davanti. Questo tipo di coerenza si mostra nella maggior parte degli esempi condivisi da OpenAI.
Gli esempi seguenti (anche dal sito Web di OpenAI) mostrano un’altra caratteristica di DALL-E 2, che consiste nel generare variazioni di un’immagine di input. Qui, invece di fornire a DALL-E 2 una descrizione testuale, gli fornisci un’immagine e tenta di generare altre forme della stessa immagine. Qui, DALL-E mantiene le relazioni tra gli elementi dell’immagine, tra cui la ragazza, il laptop, le cuffie, il gatto, le luci della città sullo sfondo e il cielo notturno con luna e nuvole.
Tecnicamente, DALL-E 2 sfrutta i modelli CLIP e di diffusione, due tecniche avanzate di deep learning create negli ultimi anni. Idealmente, il modello di apprendimento automatico dovrebbe essere in grado di apprendere funzionalità latenti che rimangono coerenti in diverse condizioni di illuminazione, angoli e ambienti di sfondo. Ma come è stato spesso visto, i modelli di deep learning spesso imparano le rappresentazioni sbagliate. Ad esempio, una rete neurale potrebbe pensare che i punti verdi in un’immagine siano una caratteristica della classe “pecora” perché tutte le immagini di pecore che ha visto durante l’allenamento contengono molta erba. Un altro modello che è stato addestrato su immagini di pipistrelli scattate durante la notte potrebbe considerare l’oscurità una caratteristica di tutte le immagini di pipistrelli e classificare erroneamente le immagini di pipistrelli scattate durante il giorno. Altri modelli potrebbero diventare sensibili agli oggetti centrati nell’immagine e posizionati davanti a un certo tipo di sfondo. Imparare le rappresentazioni sbagliate è in parte il motivo per cui le reti neurali sono fragili, sensibili ai cambiamenti nell’ambiente e scarse nel generalizzare oltre i loro dati di addestramento.
Questo è il problema che risolve il Contrastive Learning-Image Pre-training (CLIP). CLIP addestra due reti neurali in parallelo su immagini e relative didascalie. Una delle reti apprende le rappresentazioni visive nell’immagine e l’altra apprende le rappresentazioni del testo corrispondente. Durante l’allenamento, le due reti cercano di regolare i propri parametri in modo che immagini e descrizioni simili producano incorporamenti simili.
Uno dei principali vantaggi di CLIP è che non è necessario che i suoi dati di addestramento siano etichettati per un’applicazione specifica. Può essere addestrato sull’enorme numero di immagini e descrizioni sciolte che si possono trovare sul web. Inoltre, senza i rigidi confini delle categorie classiche, CLIP può apprendere rappresentazioni più flessibili e generalizzare a un’ampia varietà di attività. Ad esempio, se un’immagine è descritta come “un ragazzo che abbraccia un cucciolo” e un’altra come “un ragazzo che cavalca un pony”, il modello sarà in grado di apprendere una rappresentazione più solida di cosa sia un “ragazzo” e come si relaziona ad altri elementi nelle immagini.
CLIP ha già dimostrato di essere molto utile per l’apprendimento zero-shot e pochi-shot , in cui un modello di machine learning viene mostrato al volo per eseguire attività per le quali non è stato addestrato.
L’altra tecnica di apprendimento automatico utilizzata in DALL-E 2 è la “diffusione”, una sorta di modello generativo che impara a creare immagini noising e denoising gradualmente i suoi esempi di addestramento. I modelli di diffusione sono come gli autoencoder , che trasformano i dati di input in una rappresentazione di incorporamento e quindi riproducono i dati originali dalle informazioni di incorporamento.
DALL-E addestra un modello CLIP su immagini e didascalie. Quindi utilizza il modello CLIP per addestrare il modello di diffusione. Fondamentalmente, il modello di diffusione utilizza il modello CLIP per generare gli incorporamenti per il prompt di testo e la sua immagine corrispondente. Quindi prova a generare l’immagine che corrisponde al testo.
Per il momento, DALL-E 2 sarà messo a disposizione solo di un numero limitato di utenti che si sono iscritti alla lista d’attesa. Dal rilascio di GPT-2 , OpenAI è stata riluttante a rilasciare i suoi modelli di intelligenza artificiale al pubblico. GPT-3, il suo modello linguistico più avanzato, è disponibile solo tramite un’interfaccia API . Non è possibile accedere al codice effettivo e ai parametri del modello.
Sulla base degli esempi condivisi dal team di OpenAI, DALL-E 2 sembra manifestare alcune delle capacità di buon senso che sono mancate così a lungo nei sistemi di deep learning . Ma resta da vedere quanto sia profondo questo senso comune e stabilità semantica, e come DALL-E 2 e i suoi successori tratteranno concetti più complessi come la composizionalità.
A questo punto dobbiamo chiederci a cosa serve DALL-E 2: è un potentissimo strumento per giocare con le immagini o è un modo per dire al mondo qualcosa di diverso?
Da quando è passato da una struttura no profit a una struttura a “profitto limitato”, OpenAI ha cercato di trovare l’equilibrio tra la ricerca scientifica e lo sviluppo del prodotto. La partnership strategica dell’azienda con Microsoft le ha fornito solidi canali per monetizzare alcune delle sue tecnologie, tra cui GPT-3 e Codex .
In un post sul blog, Altman ha suggerito un possibile lancio del prodotto DALL-E 2 in estate. Molti analisti stanno già suggerendo applicazioni per DALL-E 2, come creare grafica per articoli (potrei sicuramente usarne alcuni per i miei) e apportare modifiche di base alle immagini. DALL-E 2 consentirà a più persone di esprimere la propria creatività senza la necessità di abilità speciali con strumenti.
Altman suggerisce che i progressi nell’IA ci stanno portando verso “un mondo in cui le buone idee sono il limite per ciò che possiamo fare, non le abilità specifiche”.
In ogni caso, le applicazioni più interessanti di DALL-E emergeranno man mano che sempre più utenti lo potranno testare. Ad esempio, l’idea di Copilot e Codex è emersa quando gli utenti hanno iniziato a utilizzare GPT-3 per generare codice sorgente per il software.
Se OpenAI rilascia un servizio API a pagamento alla GPT-3, sempre più persone saranno in grado di creare app con DALL-E 2 o integrare la tecnologia nelle applicazioni esistenti. Ma come nel caso di GPT-3 , costruire un modello di business attorno a un potenziale prodotto DALL-E 2 avrà le sue sfide uniche. Molto dipenderà dai costi di formazione e di esecuzione di DALL-E 2, i cui dettagli non sono ancora stati pubblicati.
E in quanto titolare della licenza esclusiva per la tecnologia di GPT-3, Microsoft sarà il principale vincitore di qualsiasi innovazione basata su DALL-E 2 perché sarà in grado di farlo in modo più rapido ed economico. Come GPT-3, DALL-E 2 ricorda che mentre la comunità di intelligenza artificiale continua a gravitare verso la creazione di reti neurali più grandi addestrate su set di dati di addestramento sempre più grandi , il potere continuerà a essere consolidato in alcune aziende molto ricche che hanno le risorse finanziarie e risorse tecniche necessarie per la ricerca sull’IA.
Più che allo stupore per la creatività, quello che mi sembra importante guardare è il messaggio che DALL-E comunica: in un mondo invaso dai dati il potere è comprenderne il significato senza perdersi. DALL-E 2 è una macchina di significato e in un mondo sempre più diviso e in conflitto temo che questo sia l’ennesimo strumento in grado di diventare una potentissima arma per quella che oggi, come ci mostra l’ucraina, è la vera frontiera della guerra: la propaganda e l’aggressione psicologica.
Fonte: https://www.paolobenanti.com/post/dall-e
Commenti recenti