L’intelligenza artificiale text-to-video segna un nuovo passo avanti, grazie all’introduzione di Sora, una IA generativa sviluppata da OpenAI che genera video ultra realistici partendo da prompt testuali. In questo articolo scopriremo cos’è Sora, come funziona e analizzeremo i principali limiti, rischi e problemi derivanti dall’applicazione di questo nuovo tool.
Indice dei contenuti
Cos’è Sora
L’intelligenza artificiale continua a fare passi da gigante, influenzando vari aspetti della nostra vita quotidiana, dalla gestione domestica all’automazione industriale, fino all’innovazione nei campi creativi. Tra le aziende in prima linea in questo ambito, OpenAI si distingue per il suo impegno nello sviluppo di tecnologie all’avanguardia. L’ultimo risultato di questa incessante ricerca è Sora, un’intelligenza artificiale che promette di rivoluzionare ulteriormente il modo in cui interagiamo con il mondo digitale.
OpenAI sta attualmente sviluppando questo modello di intelligenza artificiale capace di generare video partendo da prompt testuali. Questa tecnologia avanzata può creare scene dettagliate con personaggi multipli, movimenti complessi e narrazioni intricate, mostrando un’ampia gamma di emozioni.
Al fine di trasformare dati visivi in “patch”, OpenAI trae ispirazione dai grandi modelli di linguaggio che sviluppano competenze generaliste attraverso l’allenamento su una vasta gamma di dati raccolti su internet. Questo successo è reso possibile, in parte, grazie all’utilizzo di “token” che integrano in modo elegante diverse modalità di testo, come codice, formule matematiche e varie lingue naturali. In questa ricerca, viene esplorato come i modelli generativi di dati visivi possano beneficiare di un approccio simile.
Mentre i modelli di linguaggio operano con “token” di testo, Sora adotta l’uso di “patch” visive. Le “patch” hanno dimostrato in precedenza di essere una rappresentazione efficace per i modelli di dati visivi. È stato constatato che le “patch” costituiscono una rappresentazione altamente scalabile ed efficace per l’addestramento di modelli generativi su una varietà di tipi di video e immagini.
Chi è OpenAI
OpenAI è un’organizzazione di ricerca sull’intelligenza artificiale (AI) con sede negli Stati Uniti, fondata nel dicembre 2015 con l’obiettivo di sviluppare un’intelligenza artificiale generale “sicura e vantaggiosa”, definita come sistemi altamente autonomi che superano gli esseri umani nella maggior parte dei lavori di valore economico. Come una delle organizzazioni leader dell’AI spring, OpenAI ha sviluppato modelli di linguaggio di grandi dimensioni, modelli avanzati di generazione di immagini e, precedentemente, rilasciato modelli open-source. Il rilascio di ChatGPT è stato accreditato per aver avviato l’AI spring. Microsoft ha fornito a OpenAI Global LLC un investimento di 1 miliardo di dollari nel 2019 e di 10 miliardi di dollari nel 2023, una significativa porzione dell’investimento sotto forma di risorse computazionali sul servizio cloud di Microsoft Azure.
La partnership tra Microsoft e OpenAI rappresenta la terza fase di una collaborazione a lungo termine attraverso un investimento pluriennale e multimiliardario volto ad accelerare le scoperte nell’AI e a garantire che i benefici siano condivisi ampiamente con il mondo. Questo accordo estende la collaborazione in corso attraverso la supercomputazione AI e la ricerca, consentendo a entrambi di commercializzare in modo indipendente le tecnologie AI avanzate risultanti.
Nel luglio 2023, OpenAI ha annunciato la disponibilità generale di GPT-4, il suo modello di generazione di testo più recente, tramite la sua API. GPT-4 può generare testi (incluso codice) e accettare input di immagini e testi, rappresentando un miglioramento rispetto al suo predecessore GPT-3.5, che accettava solo testi. Nonostante le sue capacità avanzate, GPT-4, come anche i migliori modelli di AI generativa di oggi, non è esente da errori, come “allucinazioni” di fatti e errori di ragionamento.
OpenAI ha anche annunciato la disponibilità generale delle sue API DALL-E 2 e Whisper, con DALL-E 2 che rappresenta il modello di generazione di immagini di OpenAI e Whisper il suo modello di trascrizione da voce a testo. Queste innovazioni hanno catturato l’immaginazione e introdotto l’AI su larga scala come una potente piattaforma tecnologica general-purpose, che si prevede creerà un impatto trasformativo alla stregua del personal computer, internet, i dispositivi mobili e il cloud.
Cosa può fare Sora: alcuni esempi
Vediamo ora, più concretamente, cosa significhi utilizzare Sora per la generazione di contenuti. Alcune delle più famose piattaforme di IA generativa nella creazione di immagini sono Midjourney e Dalle-e, quest’ultima di proprietà, appunto, di OpenAI. Tuttavia, nell’ambito della generazione video, nonostante siano già esistenti alcune piattaforme in grado di produrre output text-to-video, Sora spicca per qualità dei risultati ottenuti. Vediamo alcuni esempi, riportati così come sul sito ufficiale di OpenAI:
I punti di forza di Sora
Ecco un elenco dei punti di forza su cui si basa questa IA generativa:
- Generazione di immagini: Sora può anche generare immagini ultra-realistiche, caratteristica su cui si fonda questa nuova IA.
- Consistenza del 3D: Sora può generare video con movimenti dinamici della telecamera. Man mano che la telecamera si sposta e ruota, le persone e gli elementi della scena si muovono in modo coerente attraverso lo spazio tridimensionale.
- Coerenza di lungo raggio e permanenza degli oggetti: Sora è spesso, sebbene non sempre, in grado di modellare efficacemente le dipendenze sia a breve che a lungo raggio. Ad esempio, il nostro modello può mantenere la presenza di persone, animali e oggetti anche quando sono oscurati o escono dal fotogramma. Allo stesso modo, può generare più riprese dello stesso personaggio in un singolo campione, mantenendo la sua apparenza per tutto il video.
- Interazioni con il mondo: Sora può talvolta simulare azioni che influenzano lo stato del mondo in modi semplici. Ad esempio, un pittore può lasciare nuove pennellate lungo una tela che persistono nel tempo, o un uomo può mangiare un hamburger e lasciare segni di morso.
I limiti e le sfide di Sora
Nonostante i risultati ottenuti e le premesse siano stupefacenti, così come ogni IA generativa che generi testi, immagini o video, anche Sora incontra limiti tecnici ed etici:
- Mancanza di accuratezza: Sora non è attualmente in grado di generare contenuti al 100% accurati a causa delle complesse interazioni tra i soggetti.
- Durata: attualmente, Sora è in grado di generare video della durata massima di 1 minuto.
- Inconsistenza nella fisica degli oggetti: benché ultra-realistici, molti degli oggetti realizzati da Sora sembrano, talvolta, violare le leggi della fisica. In particolare, manca la totale aderenza alle leggi fisiche di alcuni materiali e delle interazioni tra di essi.
- Deepfakes: uno dei principali limiti dell’IA riguarda il deepfake, una pratica vietata tramite la quale chiunque può sfruttare le capacità di generare contenuti ultra-realistici a scapito di persone pubbliche, o a fini offensivi. Infatti, OpenAI non ha al momento rilasciato Sora per l’utilizzo, poiché molte delle misura di sicurezza che renderanno Sora un tool sicuro sono attualmente in fase di sviluppo.