Incontra il nuovo modello Zeroscope v2 un modello gratuito di testo-video che funziona su schede grafiche moderne.

Meet the new Zeroscope v2, a free text-video model that works on modern graphics cards.

In una serie senza precedenti di eventi, un modello di intelligenza artificiale open source di nuova generazione chiamato Zeroscope è stato messo sul mercato con la capacità di eseguire un servizio di testo-video all’avanguardia su schede grafiche di ultima generazione disponibili agli utenti a costi molto più economici. Zeroscope di Modelscope, di proprietà della Cina, punta a rivoluzionare i media e la creazione di video sbloccando un nuovo spettro di casi d’uso dell’intelligenza artificiale.

È importante capire i componenti funzionali di Zeroscope per comprendere come sta rivoluzionando il campo della generazione video tramite testo. Ciò che rende unico questo modello open source sono i suoi due componenti chiave, Zeroscope V2 e Zeroscope V2XL; Zeroscope_v2 567w, progettato per la creazione rapida di contenuti con una risoluzione di 576×320 pixel per esplorare i concetti video. I video di qualità possono poi essere ingranditi a una risoluzione “alta definizione” di 1024×576 utilizzando zeroscope_v2_XL, quindi un utente può creare rapidamente video utilizzando ZeroScope V2 e poi ingrandirli con V2XL.

Inoltre, i requisiti di Zeroscope sono sorprendentemente gestibili grazie ai 1,7 miliardi di parametri del modello multi-livello. Zeroscope funziona con requisiti di VRAM di 7,9 gigabyte a risoluzione inferiore e 15,3 gigabyte a risoluzione superiore. Il modello più piccolo è stato creato per essere eseguibile su molte schede grafiche standard, il che lo rende accessibile a una base di utenti più ampia e generale.

Zeroscope è stato addestrato in modo strategico con rumore di offset su quasi 10.000 clip e quasi 30.000 frame conteggiati, ciascuno composto da frame. Questo insieme di azioni non convenzionale sblocca nuove opportunità e possibilità per Zeroscope. Con l’introduzione di variazioni come spostamenti casuali di oggetti, lievi cambiamenti nei tempi dei frame e distorsioni minori, il modello migliora la sua comprensione della distribuzione dei dati, il che aiuta il modello a generare video più realistici a diverse scale e interpretare efficacemente le variazioni sfumate nelle descrizioni testuali. Con tutte queste caratteristiche, Zeroscope sta rapidamente diventando un degno concorrente di Runway, che è un fornitore commerciale di modelli di testo-video.

La generazione di video a partire dal testo è ancora in fase di sviluppo, poiché i video generati tendono ad essere più brevi e affetti da alcune carenze visive. Tuttavia, se guardiamo alla storia dei modelli di intelligenza artificiale per le immagini, anche loro hanno avuto sfide simili prima di raggiungere uno stato in cui possono ottenere una qualità fotorealistica. La sfida principale è che la generazione di video richiede significativamente più risorse sia nella fase di addestramento che in quella di generazione.

L’emergere di Zeroscope come potente modello di testo-video apre la strada a molti nuovi progressi digitali e casi d’uso, come:

  1. Gaming personalizzato, VR e Metaverse: la capacità di trasformazione di Zeroscope può ridefinire la narrazione nei videogiochi. I giocatori possono influenzare le scene di taglio e il gameplay in tempo reale attraverso le loro parole, consentendo un’interazione e una personalizzazione impensabili. Inoltre, gli sviluppatori di giochi possono creare rapidamente prototipi e visualizzare le scene di gioco, accelerando lo sviluppo.
  2. Film personalizzati: la tecnologia di Zeroscope sconvolge l’industria dei media generando contenuti personalizzati basati sulle descrizioni degli utenti. Gli utenti possono inserire trame o descrizioni di scene e ottenere video personalizzati in risposta. Questa funzione consente una partecipazione attiva da parte dello spettatore e apre strade per la creazione di contenuti personalizzati, come pubblicità video personalizzate o scene di film su misura per l’utente.
  3. Creativi sintetici: Zeroscope apre la strada a una nuova generazione di creatori che si affidano all’intelligenza artificiale per scrivere, produrre e montare le proprie idee nella realtà. Rimuove le barriere delle competenze tecniche nella creazione di video e ha il potenziale per stabilire uno nuovo standard per il contenuto video automatizzato e di alta qualità. La linea tra creatori umani e creatori di intelligenza artificiale si confonde, ampliando il panorama della creatività.

Zeroscope è, come previsto, un modello innovativo leggero che può essere facilmente ottimizzato e non richiede risorse speciali, il che lo rende non solo uno strumento utilizzabile da più utenti in generale, ma anche da molti nuovi ricercatori emergenti che non dispongono delle risorse di un grande laboratorio e ora possono lavorare con tali algoritmi per comprenderli meglio e far evolvere questo intero campo in modo migliore a costi ragionevoli. Sarebbe incredibile vedere come la dura competizione ispirerà i creatori di Zeroscope a innovare e conquistare una forte posizione di mercato.