Google Veo per Video Creativi: La Nuova Era della Produzione Video Automatica

Google Veo 3 è un modello di intelligenza artificiale all'avanguardia che trasforma semplici prompt testuali in video incredibilmente realistici. Disponibile tramite un abbonamento a Google Gemini Ultra, Veo 3 produce filmati di qualità cinematografica, con personaggi che parlano diverse lingue e ambientazioni ricche di dettagli. Gli esperimenti online hanno mostrato risultati sorprendenti, ma hanno anche rivelato le difficoltà nel distinguere tra video autentici e quelli creati artificialmente, il che solleva preoccupazioni legate alle fake news. Questa tecnologia ha il potenziale di rendere la produzione audiovisiva accessibile a tutti, ma pone anche domande importanti sul futuro del lavoro dei registi e dei creativi, segnando l'inizio di una nuova era nel mondo del video digitale.

Share

Tempo di lettura: 3 minuti

“È tutto finito.” Quante volte abbiamo sentito questa frase, tra il serio e il faceto, ogni volta che l’intelligenza artificiale ha fatto un balzo in avanti? Dall’esplosione di ChatGPT nel novembre 2022, l’entusiasmo si è mescolato a dubbi e preoccupazioni. E ora, con l’arrivo di Google Veo 3, lo stupore e l’ansia hanno raggiunto livelli mai visti prima.

Cos’è Google Veo 3?

Veo 3 è l’ultima novità in fatto di intelligenza artificiale, creata da Google, e ha la straordinaria capacità di trasformare un semplice testo in video — proprio come una frase scritta in linguaggio naturale. E il risultato? Filmati così realistici che sembrano usciti direttamente da un film! Non sorprende che Google parli di «cinematic video».

Chi ha avuto l’opportunità di testare Veo 3 (che al momento è disponibile solo tramite un costoso abbonamento a Google Gemini Ultra) è rimasto davvero impressionato. I social media sono già invasi da video generati da questo sistema, e molti utenti hanno condiviso autentiche opere d’arte, frutto della fusione tra la creatività umana e la potenza degli algoritmi di Google.

L’impatto sul confine tra vero e falso

La qualità di questi video è così elevata che persino gli esperti del settore faticano a distinguere un filmato reale da uno creato artificialmente. Questo scenario apre a situazioni complicate, specialmente per quanto riguarda la diffusione di fake news, un problema già evidente con le immagini generate dall’AI.

Alcuni utenti online si sono divertiti a realizzare video che confondono la realtà, mettendo in discussione ciò che è reale e ciò che è digitale. Si parla già di una vera e propria «zona grigia», dove la distinzione tra oggetti fisici e simulazioni digitali diventa sempre più sfumata.

Cosa cambia per l’industria audiovisiva?

L’evoluzione di Veo 3 è davvero sorprendente: in pochi anni, siamo passati da video caricaturali (pensate al famoso meme di Will Smith che mangia spaghetti, creato dall’AI) a risultati che sembrano incredibilmente realistici. Questo modello non solo riesce a ricreare ambientazioni, movimenti di camera e montaggi, ma può anche far parlare i personaggi in diverse lingue e accenti, incluso l’italiano.

Questo solleva domande importanti: avremo ancora bisogno di registi, attori, tecnici e creatori? O Veo 3 e i suoi successori cambieranno radicalmente il modo in cui produciamo contenuti audiovisivi?

Le prove con Google Veo 3

Per capire davvero le potenzialità di Veo 3, abbiamo esplorato il web alla ricerca di esperimenti di altri utenti che hanno creato piccoli cortometraggi.

Americani a Roma

Il primo esperimento è un cortometraggio surreale fatto dalla redazione del Corriere della Sera, ma verosimile: un turista americano in vacanza a Roma ordina due cappuccini e una pizza «pepperoni» (termine americano per un tipo di salame piccante). Dopo una correzione sulla pronuncia, il cameriere porta il cibo al tavolo. Il turista poi immerge una fetta di pizza nel cappuccino, un mix gastronomico bizzarro che il cameriere decide di provare a sua volta.

Sono stati utilizzati cinque prompt diversi per creare altrettante scene, affidandosi alla chat di Gemini e a Veo 3 per la generazione video. Ogni clip ha richiesto circa tre minuti, con la possibilità di rigenerare le scene non convincenti.

allowfullscreen></iframe>

Il video è molto realistico in quanto mostra il Colosseo sullo sfondo e i pini romani, molto ben dettagliati. Gli effetti sonori inseriti rendono la città rumorosa e affollata di turisti e molto credibile. Anche le voci dei protagonisti sono molto ben renderizzate mantenendo gli accenti dei paesi di provenienza. Tuttavia, alcuni errori sono presenti. Ad esempio, in alcune scene il turista appare seduto in modo innaturale e ad un certo punto compaiono i sottotitoli. Infine, le scene nnon sono molto coerenti tra di loro.

Per migliorare la continuità tra le scene, Google suggerisce, infatti, di usare Flow, la suite creativa che consente di aggiungere nuove scene mantenendo coerenza visiva e narrativa.

Previsioni meteo

In un altro esperimento dal web, hanno chiesto di creare un annuncio di un finto notiziario meteorologico che sembrasse autentico e che descrivesse un’invasione di tacos in rapida diffusione negli Stati Uniti.

Il filmato è molto realistico in quanto il presentatore appariva credibile, con una sincronizzazione labiale piuttosto precisa. Tuttavia, sono presenti qualche distorsione facciale.

Gorilla parlante

Un altro esempio riguardava un video di un gorilla parlante dall’aspetto realistico, che assisteva a una grande partita di calcio inglese. Nel video, il gorilla alzava un bastone per selfie e si lamentava con rabbia con gli spettatori per una decisione ingiusta dell’arbitro, mentre era sugli spalti insieme ad altri tifosi.

Il risultato si è rivelato curioso, perché il gorilla appare e si muove in modo incredibilmente realistico, con espressioni e movimenti del corpo naturali. Tuttavia, sono ancora evidenti alcune distorsioni di sfondo.

Conclusioni: un futuro ricco di opportunità e sfide

Google Veo 3 segna un vero e proprio cambiamento nel mondo della produzione video, portando con sé enormi potenzialità creative, ma anche sfide significative, specialmente sul fronte etico e professionale.

I risultati degli esperimenti finora indicano che questa tecnologia potrebbe rendere la creazione di contenuti audiovisivi accessibile a tutti, permettendo a chiunque di diventare regista con semplici comandi testuali. Tuttavia, la difficoltà nel distinguere tra ciò che è reale e ciò che è generato potrebbe complicare la battaglia contro le fake news e trasformare il panorama dei media.

Solo il tempo potrà dirci come si svilupperà questa nuova frontiera, ma una cosa è certa: con Veo 3, siamo davvero entrati in una nuova era del video digitale.

More To Explore

Intelligenza artificiale

Sentiment Analysis e Topic Modeling: cosa dicono davvero i tuoi clienti

Hai 200 recensioni, 500 ticket di supporto, 1.000 commenti. Leggerli tutti richiederebbe giorni — e alla fine non saresti neanche sicuro di aver colto i pattern più importanti. Sentiment Analysis e Topic Modeling risolvono esattamente questo: in dieci minuti identifichi il tono emotivo di ogni testo, raggruppi i temi ricorrenti e ottieni una sintesi strategica che la lettura manuale non avrebbe mai prodotto.

Intelligenza artificiale

AI Multimodale: analizza PDF, immagini e documenti con Claude, GPT-4 e Gemini

L’AI non legge più solo testo. Claude riassume un preventivo di 10 pagine in 30 secondi. GPT-4 Vision trascrive i dati da uno screenshot di dashboard in formato tabella pronta all’uso. Gemini 1.5 Pro naviga documenti da 1.000 pagine citando le fonti. Questa guida mostra come funzionano, quando usare quale tool e dove il risparmio di tempo è misurabile — con screenshot reali di sessioni operative.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Progetta con MongoDB!!!

Acquista il nuovo libro che ti aiuterà a usare correttamente MongoDB per le tue applicazioni. Disponibile ora su Amazon!