+39 0884 591257 | info@goodstaff.it | Via Gobetti, 4 Manfredonia (FG)

Può l’intelligenza artificiale disegnare quello che scrivi? Scopriamolo…

DALL-E 2, ecco l’IA che creA immagini realistiche Partendo da una descrizione testuale

Tu scrivi e l’intelligenza artificiale crea automaticamente un’immagine realistica partendo dalle indicazioni. È questo il trend sempre più presente nel vasto mondo dell’IA, cioè i generatori di immagini da testo.

“Un astronauta a cavallo in uno stile fotorealistico”: è bastata questa frase per generare questa precisa immagine.

Uno dei più noti programmi in questo campo si chiama DALL-E 2 ed è stato creato da OpenAI, l’organizzazione non profit fondata, tra gli altri, da Elon Musk, che però si è chiamato fuori nel 2019. Anche Google ha il suo sistema, chiamato Imagen e creato dal Brain Team della casa di Mountai View.

Come funziona DALL-E 2

In sostanza questo software di OpenAI genera immagini realistiche e, come dicono i creatori, “opere d’arte”, partendo da una descrizione testuale. Ma non fa solo questo. Dall-E 2 può anche modificare un’immagine esistente, aggiungendo o rimuovendo elementi, considerando anche le ombre e i riflessi che questi producono.

Oppure può creare delle variazioni di un’opera d’arte partendo da quella originale, come nel caso del celebre “Ragazza con l’orecchino di perla”.

Per capire il funzionamento di DALL-E 2, partiamo da un esempio: “Un orsacchiotto su uno skateboard a Times Square”.

Come fa DALL-E 2 a capire come il concetto di “orsacchiotto” deve manifestarsi all’interno dello spazio visivo e con quello stile? Il collegamento tra la semantica testuale e la sua rappresentazione è possibile grazie al sistema CLIP (Contrastive Learning-Image Pre-training). Questo sistema è addestrato su centinaia di milioni di immagini e relative didascalie e riesce a capire quando un determinato frammento di testo si riferisce a un’immagine. Il sistema, quindi, apprende quanto sia correlata una determinata didascalia a un’immagine.

Compreso questo, il sistema addestrato su basi dati di immagini e didascalie usa una tecnica chiamata “text-to-image diffusion model”, o semplicemente diffusione, che trasforma il testo in dati partendo da quanto ha imparato con CLIP. In sostanza ci riesce partendo da uno schema casuale di punti, modificando gradualmente l’immagine verso qualcosa di comprensibile: lo fa cercando di ricreare l’immagine più adatta al testo scritto.

Problemi e rischi di questi sistemi

Le immagini rilasciate da questa intelligenza artificiale sono impressionanti, ma i software sono ancora lontani dalla perfezione. Chi crea questi sistemi, infatti, tende solo a selezionare le immagini migliori da mostrare: sebbene sembrino tutte di alta qualità, non rappresentano per forza l’output medio del software, che in realtà può generare anche immagini non finite, sfocate o di bassa qualità.

L’unico limite nella creazione di queste foto è quindi l’immaginazione, ma non si tratta solo di generare meme divertenti per i social. Software del genere possono rappresentare anche seri rischi di mistificazione della realtà e ne sono consapevoli i ricercatori. Per questo DALL-E 2 è aperto solo a un pubblico ristretto che può accedere tramite una lunga lista d’attesa.

C’è anche il rischio di generare immagini discriminatorie. Sebbene questo approccio abbia consentito rapidi progressi algoritmici negli ultimi anni, set di dati di questa natura spesso riflettono stereotipi sociali e rappresentazioni dannose verso determinati gruppi.

 

Fonte: mashable.com

Commenta