Google AI e i ricercatori dell’Università di Tel Aviv presentano un framework di intelligenza artificiale che unisce un modello di diffusione del testo all’immagine con una geometria delle lenti specializzata per il rendering delle immagini.

Google AI e i ricercatori dell'Università di Tel Aviv presentano un rivoluzionario framework di intelligenza artificiale che combina un modello di elaborazione testuale-imagini con una geometria delle lenti specializzata per il rendering impeccabile delle immagini.

I recenti progressi nella generazione di immagini fanno leva su modelli di diffusione a grande scala addestrati su dati di testo e immagini accoppiati, incorporando approcci di condizionamento diversificati per un controllo visivo migliorato. Questi metodi vanno dal condizionamento esplicito del modello alla modifica delle architetture preaddestrate per nuove modalità. Ottimizzare modelli condizionati dal testo utilizzando caratteristiche dell’immagine estratte, come la profondità, consente la ricostruzione dell’immagine. Precedentemente, i ricercatori hanno introdotto un framework basato su GANs che utilizza informazioni di risoluzione originali per la generazione di immagini multi-risoluzione e coerente nella forma.

Google Research e i ricercatori dell’Università di Tel Aviv presentano un framework di intelligenza artificiale (AnyLens) che unisce un modello di diffusione di testo-immagine con una geometria della lente specializzata per il rendering delle immagini. Questa integrazione consente un controllo preciso sulla geometria del rendering, facilitando la generazione di effetti visivi diversi come vista a pesce, panoramica e texture sferiche utilizzando un singolo modello di diffusione.

Lo studio affronta la sfida di incorporare diversi controlli ottici nei modelli di diffusione di testo-immagine introducendo un nuovo metodo. Questo approccio consente al modello di basarsi sulla geometria locale delle lenti, migliorando la sua capacità di replicare effetti ottici complessi per una generazione realistica delle immagini. Oltre alle tradizionali trasformazioni del supporto, il metodo consente praticamente qualsiasi deformazione della griglia tramite la condizionamento delle coordinate per pixel. Questa innovazione supporta varie applicazioni, tra cui la generazione di scene panoramiche e la texture sferica. Introduce un framework di generazione di immagini consapevole della geometria dello spazio con condizionamento del tensore metrico, ampliando le possibilità di controllo e manipolazione della generazione delle immagini.

La ricerca presenta un framework che integra modelli di diffusione di testo-immagine con una geometria specifica della lente tramite il condizionamento delle coordinate per pixel. L’approccio ottimizza un modello di diffusione latente preaddestrato utilizzando dati generati deformando le immagini con campi di deformazione casuali. Viene utilizzato un ricalcolo dei token nei livelli di autoattenzione. Questo metodo permette la manipolazione delle proprietà di curvatura, producendo effetti vari come l’effetto “occhio di pesce” e la vista panoramica. Supera la risoluzione fissa nella generazione di immagini e incorpora il condizionamento del tensore metrico per un controllo ottimizzato. Il framework estende le possibilità di manipolazione delle immagini, affrontando sfide come la generazione di immagini di grandi dimensioni e gli aggiustamenti di scala dell’autoattenzione nei modelli di diffusione.

Il framework integra con successo un modello di diffusione di testo-immagine con una geometria specifica della lente, consentendo effetti visivi diversi come vista a pesce, panoramica e texture sferiche utilizzando un singolo modello. Offre un controllo preciso sulle proprietà di curvatura e sulla geometria del rendering, producendo generazioni realistiche e sfumature di immagini. Addestrato su un’ampia raccolta di dati annotati testualmente e campi di deformazione per pixel, il metodo genera immagini deformate arbitrarie con risultati fedeli e non distorti, perfettamente allineati con la geometria di destinazione. Facilita anche la creazione di panorami sferici con proporzioni realistiche e minimi artefatti.

In conclusione, il nuovo framework che incorpora diverse geometrie di lenti nel rendering delle immagini offre un controllo migliorato sulle proprietà di curvatura e sugli effetti visivi. Attraverso il condizionamento delle coordinate per pixel e delle metriche, il metodo facilita la manipolazione della geometria del rendering, creando immagini altamente realistiche con proprietà di curvatura precise e manipolazione della geometria. Questo framework incoraggia la creatività e il controllo nella sintesi delle immagini, rendendolo uno strumento prezioso per la produzione di immagini di alta qualità.

Lavori futuri suggeriscono di superare le limitazioni del loro metodo esplorando tecniche avanzate di condizionamento per migliorare la generazione di immagini diverse. I ricercatori propongono di espandere l’approccio per ottenere risultati simili a quelli delle lenti specializzate che catturano scene distinte. Menzionando l’uso potenziale di tecniche di condizionamento più avanzate, si prevedono miglioramenti nella generazione di immagini e miglioramenti delle capacità.