Sora: cos’è e cosa può fare la nuova IA di OpenAI

Foto dell'autore

Filippo Zazzi

 

Home > News feed > Competenze e tecnologie > Competenze informatiche > Intelligenza Artificiale > Sora: cos’è e cosa può fare la nuova IA di OpenAI

L’intelligenza artificiale text-to-video segna un nuovo passo avanti, grazie all’introduzione di Sora, una IA generativa sviluppata da OpenAI che genera video ultra realistici partendo da prompt testuali. In questo articolo scopriremo cos’è Sora, come funziona e analizzeremo i principali limiti, rischi e problemi derivanti dall’applicazione di questo nuovo tool.

Cos’è Sora

L’intelligenza artificiale continua a fare passi da gigante, influenzando vari aspetti della nostra vita quotidiana, dalla gestione domestica all’automazione industriale, fino all’innovazione nei campi creativi. Tra le aziende in prima linea in questo ambito, OpenAI si distingue per il suo impegno nello sviluppo di tecnologie all’avanguardia. L’ultimo risultato di questa incessante ricerca è Sora, un’intelligenza artificiale che promette di rivoluzionare ulteriormente il modo in cui interagiamo con il mondo digitale.

OpenAI sta attualmente sviluppando questo modello di intelligenza artificiale capace di generare video partendo da prompt testuali. Questa tecnologia avanzata può creare scene dettagliate con personaggi multipli, movimenti complessi e narrazioni intricate, mostrando un’ampia gamma di emozioni.

Al fine di trasformare dati visivi in “patch”, OpenAI trae ispirazione dai grandi modelli di linguaggio che sviluppano competenze generaliste attraverso l’allenamento su una vasta gamma di dati raccolti su internet. Questo successo è reso possibile, in parte, grazie all’utilizzo di “token” che integrano in modo elegante diverse modalità di testo, come codice, formule matematiche e varie lingue naturali. In questa ricerca, viene esplorato come i modelli generativi di dati visivi possano beneficiare di un approccio simile.

Mentre i modelli di linguaggio operano con “token” di testo, Sora adotta l’uso di “patch” visive. Le “patch” hanno dimostrato in precedenza di essere una rappresentazione efficace per i modelli di dati visivi. È stato constatato che le “patch” costituiscono una rappresentazione altamente scalabile ed efficace per l’addestramento di modelli generativi su una varietà di tipi di video e immagini.

Chi è OpenAI

OpenAI è un’organizzazione di ricerca sull’intelligenza artificiale (AI) con sede negli Stati Uniti, fondata nel dicembre 2015 con l’obiettivo di sviluppare un’intelligenza artificiale generale “sicura e vantaggiosa”, definita come sistemi altamente autonomi che superano gli esseri umani nella maggior parte dei lavori di valore economico. Come una delle organizzazioni leader dell’AI spring, OpenAI ha sviluppato modelli di linguaggio di grandi dimensioni, modelli avanzati di generazione di immagini e, precedentemente, rilasciato modelli open-source. Il rilascio di ChatGPT è stato accreditato per aver avviato l’AI spring. Microsoft ha fornito a OpenAI Global LLC un investimento di 1 miliardo di dollari nel 2019 e di 10 miliardi di dollari nel 2023, una significativa porzione dell’investimento sotto forma di risorse computazionali sul servizio cloud di Microsoft Azure.

La partnership tra Microsoft e OpenAI rappresenta la terza fase di una collaborazione a lungo termine attraverso un investimento pluriennale e multimiliardario volto ad accelerare le scoperte nell’AI e a garantire che i benefici siano condivisi ampiamente con il mondo. Questo accordo estende la collaborazione in corso attraverso la supercomputazione AI e la ricerca, consentendo a entrambi di commercializzare in modo indipendente le tecnologie AI avanzate risultanti.

Nel luglio 2023, OpenAI ha annunciato la disponibilità generale di GPT-4, il suo modello di generazione di testo più recente, tramite la sua API. GPT-4 può generare testi (incluso codice) e accettare input di immagini e testi, rappresentando un miglioramento rispetto al suo predecessore GPT-3.5, che accettava solo testi. Nonostante le sue capacità avanzate, GPT-4, come anche i migliori modelli di AI generativa di oggi, non è esente da errori, come “allucinazioni” di fatti e errori di ragionamento.

OpenAI ha anche annunciato la disponibilità generale delle sue API DALL-E 2 e Whisper, con DALL-E 2 che rappresenta il modello di generazione di immagini di OpenAI e Whisper il suo modello di trascrizione da voce a testo. Queste innovazioni hanno catturato l’immaginazione e introdotto l’AI su larga scala come una potente piattaforma tecnologica general-purpose, che si prevede creerà un impatto trasformativo alla stregua del personal computer, internet, i dispositivi mobili e il cloud.

Cosa può fare Sora: alcuni esempi

Vediamo ora, più concretamente, cosa significhi utilizzare Sora per la generazione di contenuti. Alcune delle più famose piattaforme di IA generativa nella creazione di immagini sono Midjourney e Dalle-e, quest’ultima di proprietà, appunto, di OpenAI. Tuttavia, nell’ambito della generazione video, nonostante siano già esistenti alcune piattaforme in grado di produrre output text-to-video, Sora spicca per qualità dei risultati ottenuti. Vediamo alcuni esempi, riportati così come sul sito ufficiale di OpenAI:

Prompt: Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance creates a warm glow, the low camera view is stunning capturing the large furry mammal with beautiful photography, depth of field.
Prompt: Drone view of waves crashing against the rugged cliffs along Big Sur’s garay point beach. The crashing blue waters create white-tipped waves, while the golden light of the setting sun illuminates the rocky shore. A small island with a lighthouse sits in the distance, and green shrubbery covers the cliff’s edge. The steep drop from the road down to the beach is a dramatic feat, with the cliff’s edges jutting out over the sea. This is a view that captures the raw beauty of the coast and the rugged landscape of the Pacific Coast Highway.
Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

I punti di forza di Sora

Ecco un elenco dei punti di forza su cui si basa questa IA generativa:

  • Generazione di immagini: Sora può anche generare immagini ultra-realistiche, caratteristica su cui si fonda questa nuova IA.
  • Consistenza del 3D: Sora può generare video con movimenti dinamici della telecamera. Man mano che la telecamera si sposta e ruota, le persone e gli elementi della scena si muovono in modo coerente attraverso lo spazio tridimensionale.
  • Coerenza di lungo raggio e permanenza degli oggetti: Sora è spesso, sebbene non sempre, in grado di modellare efficacemente le dipendenze sia a breve che a lungo raggio. Ad esempio, il nostro modello può mantenere la presenza di persone, animali e oggetti anche quando sono oscurati o escono dal fotogramma. Allo stesso modo, può generare più riprese dello stesso personaggio in un singolo campione, mantenendo la sua apparenza per tutto il video.
  • Interazioni con il mondo: Sora può talvolta simulare azioni che influenzano lo stato del mondo in modi semplici. Ad esempio, un pittore può lasciare nuove pennellate lungo una tela che persistono nel tempo, o un uomo può mangiare un hamburger e lasciare segni di morso.

I limiti e le sfide di Sora

Nonostante i risultati ottenuti e le premesse siano stupefacenti, così come ogni IA generativa che generi testi, immagini o video, anche Sora incontra limiti tecnici ed etici:

  • Mancanza di accuratezza: Sora non è attualmente in grado di generare contenuti al 100% accurati a causa delle complesse interazioni tra i soggetti.
  • Durata: attualmente, Sora è in grado di generare video della durata massima di 1 minuto.
  • Inconsistenza nella fisica degli oggetti: benché ultra-realistici, molti degli oggetti realizzati da Sora sembrano, talvolta, violare le leggi della fisica. In particolare, manca la totale aderenza alle leggi fisiche di alcuni materiali e delle interazioni tra di essi.
  • Deepfakes: uno dei principali limiti dell’IA riguarda il deepfake, una pratica vietata tramite la quale chiunque può sfruttare le capacità di generare contenuti ultra-realistici a scapito di persone pubbliche, o a fini offensivi. Infatti, OpenAI non ha al momento rilasciato Sora per l’utilizzo, poiché molte delle misura di sicurezza che renderanno Sora un tool sicuro sono attualmente in fase di sviluppo.

Lascia un commento