OpenAI Dall-E 3: recensione dell’IA generativa per le immagini

DALL·E è un'intelligenza artificiale creata da OpenAI che ha la straordinaria capacità di trasformare descrizioni testuali in immagini. Questo sistema si distingue per la sua abilità nel generare contenuti visivi dettagliati, originali e perfettamente in linea con il prompt che gli viene fornito. È uno strumento fantastico per designer, marketer e creatori di contenuti, poiché offre l'opportunità di esplorare nuove frontiere della creatività visiva. In questa recensione, daremo un'occhiata alla qualità delle immagini, alla versatilità dello strumento e ai suoi limiti, come le occasionali distorsioni e le difficoltà con i dettagli complessi. In generale, si tratta di una tecnologia innovativa che amplia notevolmente le possibilità della generazione visiva supportata dall'intelligenza artificiale.

Share

Tempo di lettura: 5 minuti

Con Dall-E, OpenAI ha contribuito ad aprire la strada all’intelligenza artificiale generativa che trasforma un testo in un’immagine. Ora c’è molta più concorrenza, ma la versione 3 del servizio è ancora valida.

In vari test trovati sul web, confrontandolo con Adobe Firefly e Google ImageFX, abbiamo riscontrato che Dall-E 3 ha fatto spesso il miglior lavoro con immagini realistiche e coinvolgenti e quasi sempre il migliore con fantasie surreali. È un po’ complicato, ma è molto probabile che vi dia risultati buoni e utilizzabili al primo tentativo, soprattutto se cercate allucinazioni AI che siano divertenti invece che fallimentari.

Dall-E è stato anche il migliore nell’incoraggiare l’utente a diventare pazzo e a esplorare ciò che è possibile. Siamo sicuri che ci sono designer, artisti, programmatori e altri che sono in grado di realizzare le loro visioni, ma non tutti sono capaci. In questo caso Dall-E è la soluzione giusta per voi.

Dall-E incoraggia una sorta di ingegneria dei prompt esagerata, in cui le persone inviano paragrafi di testo, qualcosa tra una vignetta e un racconto breve, il tipo di prompt che viene rifiutato come troppo lungo da alcuni concorrenti. Guardate questa visione collettiva di coloni del Kansas che sognano un’era di abbondanza dopo aver conquistato la natura e i nativi americani. È un’immagine generata da una richiesta di 186 parole. È una forma di creatività amplificata dal computer che è affascinante, e Dall-E è il miglior strumento per questo lavoro che abbia mai provato.

Dall-E 3 è disponibile solo attraverso il servizio premium ChatGPT Plus a 20 dollari al mese, che consente anche di accedere a una versione più reattiva del chatbot ChatGPT e all’utile GPT Store di OpenAI con versioni personalizzate dei suoi strumenti di intelligenza artificiale. È possibile provare gratuitamente il precedente Dall-E 2 se si vuole avere un assaggio di ciò che è possibile fare, ma i risultati non sono altrettanto buoni.

OpenAI afferma di poter utilizzare i contenuti inviati a Dall-E 3 per migliorare le prestazioni del modello, di condividere i contenuti con un gruppo selezionato di “fornitori di servizi fidati” e di non vendere i dati o condividere i contenuti con terze parti per il marketing. È inoltre possibile inviare una richiesta di privacy per far sì che OpenAI interrompa la formazione sui propri dati o cancelli il proprio account. Per maggiori dettagli, consultare le FAQ generali sulla privacy e l’informativa principale sulla privacy di OpenAI.

Di seguito la nostra recensione.

Come testare i generatori di immagini AI

Per recensire i generatori di immagini AI l’unico metodo è un approccio pratico. L’obiettivo è quello di determinare quanto siano validi rispetto alla concorrenza e quali siano gli scopi per cui sono più adatti. Per farlo, si da all’intelligenza artificiale suggerimenti basati su casi d’uso reali, come il rendering in uno stile particolare, la combinazione di elementi in un’unica immagine e la gestione di descrizioni più lunghe. Infine, si valuta il risultato eventualmente assegnando un voto a ciascuna categoria di test.

Quanto sono belle le immagini e quanto corrispondono ai suggerimenti?

ChatGPT è il migliore degli strumenti di intelligenza artificiale da testo a immagine quando si tratta di produrre risultati utili, divertenti e credibili. Fa ancora molti errori, come un giocatore di pickleball la cui racchetta spunta dalla testa invece che dall’impugnatura, ma i risultati fanno venire voglia di approfondire, non di chiudere la scheda del browser. Fa un lavoro migliore con le scene dinamiche, con i contatti e le interazioni tra soggetti diversi e con gli stati d’animo.

ChatGPT è una parte strumentale di Dall-E. Ingrandisce le vostre richieste, aggiungendo una prosa fluida per dare drammaticità ai risultati. Inoltre, consente uno stile di utilizzo colloquiale: si può chiedere un’immagine, poi una modifica senza dover ripresentare l’intera richiesta.

La tecnologia linguistica di ChatGPT consente di elaborare anche richieste lunghe ed elaborate. È emerso che le capacità avanzate di gestione delle parole sono utili per le capacità avanzate di gestione delle immagini.

Questo aiuta Dall-E 3 a superare rivali come Firefly di Adobe e ImageFX di Google quando si tratta di trasformare il vostro prompt in ciò che desiderate, assemblando correttamente più elementi. Ad esempio, Dall-E 3 è stato l’unico generatore di immagini AI che  è riuscito a creare un drago che vola sopra un castello, sputa fuoco e stringe tra gli artigli una pecora bianca e soffice. Certo, la pecora viene cullata delicatamente dal drago, ma questo forse dipende dalle norme di OpenAI contro la violenza.

Gli abbonati a ChatGPT Plus hanno accesso ad almeno 10 GPT con generatori di loghi personalizzati basati su Dall-E che sono stati messi a punto per questo compito e sono disponibili sul GPT Store.

In molti casi i dettagli delle immagini non sono particolarmente accurati. Ad esempio, nell’immagine del dog sitter sopraffatto si vedono un gatto, un cane a due teste e vari altri problemi.

Quanto sono coinvolgenti le immagini?

Molto coinvolgenti. Dall’E 3 ha prodotto sempre immagini vivaci e in grado di attirare l’attenzione. Anche quando c’erano dei problemi!

L’approccio linguistico massimalista di Dall-E 3, tuttavia, può essere a volte indesiderato. Quando è stata richiesta l’immagine di un medico e di un paziente circondati da apparecchiature mediche, c’erano una dozzina di monitor che tracciavano i dati del battito cardiaco e della respirazione. Uno dei computer aveva circa 100 tasti sulla tastiera.

Anche le persone possono sembrare un po’ impazzite per le emozioni. La richiesta di rendere una persona frustrata in piedi dietro una scatola di materiale per le pulizie ha prodotto un paio di persone che sembravano più infuriate che frustrate e una che era decisamente demoniaca.

È possibile migliorare i risultati?

L’interfaccia testuale di Dall-E 3 è colloquiale. A differenza di Firefly di Adobe, non ci sono pulsanti per gli stili o i parametri delle immagini. Ci si può abituare al suo stile colloquiale, ma a questo utente di lunga data di software di editing di immagini piacciono i pulsanti e i cursori.

È possibile chiedere che le immagini siano in widescreen, in verticale o in orizzontale e l’intelligenza artificiale lo farà. Ma quando si inizia con una nuova richiesta di immagine, a volte ritorna al formato quadrato predefinito. Più di una volta si ottiene un’immagine quadrata che piace, ma non è possibile chiedere di espandere esattamente quell’immagine. È possibile farlo con la funzione di espansione generativa di Photoshop, se si vuole seguire questa strada.

Quanto velocemente vengono generate le immagini?

Le cose belle arrivano a chi aspetta. Dall-E 3 spesso impiega 20 o 30 secondi per produrre una sola immagine.  Questo ritardo può compromettere l’interattività dello stile di funzionamento di ChatGPT, ma i risultati sono veramente belli.

Conclusione

Dall-E 3 è uno strumento impressionante, in grado di dare un po’ di divertimento creativo e di svolgere un utile lavoro di creazione di immagini. Come tutti gli strumenti di generazione di testo-immagine, è soggetto a errori, ma Dall-E 3 offre i migliori risultati tra i rivali che ho testato. Dovrete decidere voi stessi se la qualità relativa – e la migliore versione del chatbot ChatGPT – valgono più di 20 euro al mese.

More To Explore

Intelligenza artificiale

Sentiment Analysis e Topic Modeling: cosa dicono davvero i tuoi clienti

Hai 200 recensioni, 500 ticket di supporto, 1.000 commenti. Leggerli tutti richiederebbe giorni — e alla fine non saresti neanche sicuro di aver colto i pattern più importanti. Sentiment Analysis e Topic Modeling risolvono esattamente questo: in dieci minuti identifichi il tono emotivo di ogni testo, raggruppi i temi ricorrenti e ottieni una sintesi strategica che la lettura manuale non avrebbe mai prodotto.

Intelligenza artificiale

AI Multimodale: analizza PDF, immagini e documenti con Claude, GPT-4 e Gemini

L’AI non legge più solo testo. Claude riassume un preventivo di 10 pagine in 30 secondi. GPT-4 Vision trascrive i dati da uno screenshot di dashboard in formato tabella pronta all’uso. Gemini 1.5 Pro naviga documenti da 1.000 pagine citando le fonti. Questa guida mostra come funzionano, quando usare quale tool e dove il risparmio di tempo è misurabile — con screenshot reali di sessioni operative.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Progetta con MongoDB!!!

Acquista il nuovo libro che ti aiuterà a usare correttamente MongoDB per le tue applicazioni. Disponibile ora su Amazon!