I ricercatori di Google AI presentano HyperDreamBooth un approccio di intelligenza artificiale che genera in modo efficiente pesi personalizzati da un’unica immagine di una persona ed è più piccolo e 25 volte più veloce di DreamBooth.

I ricercatori di Google AI presentano HyperDreamBooth, un approccio di intelligenza artificiale più piccolo e 25 volte più veloce di DreamBooth, che genera pesi personalizzati da un'unica immagine di una persona.

Il campo dell’Intelligenza Artificiale generativa sta ricevendo tutta l’attenzione che merita. Gli sviluppi recenti nella personalizzazione del testo alle immagini (T2I) hanno aperto interessanti possibilità per usi innovativi. Il concetto di personalizzazione, che consiste nella generazione di persone distinte in contesti e stili diversi pur preservando un alto livello di integrità delle loro identità, è diventato un argomento prominente nell’AI generativa. La personalizzazione del volto, ovvero la capacità di generare nuove foto di un volto o una persona in vari stili, è resa possibile utilizzando modelli di diffusione pre-addestrati, che hanno forti priorità su vari stili.

Gli approcci attuali come DreamBooth e tecniche simili hanno successo grazie alla loro capacità di includere nuovi soggetti nel modello senza detrarre dalle sue conoscenze passate e mantenere l’essenza e le specifiche del soggetto anche quando presentato in modi molto diversi. Ma presenta ancora molte limitazioni, tra cui problemi con la dimensione del modello e la velocità di addestramento. DreamBooth comporta il riaffinamento di tutti i pesi dell’UNet e del Text Encoder del modello di diffusione, portando ad una dimensione di oltre 1GB per una diffusione stabile, che è significativamente grande. Inoltre, la procedura di addestramento per la Diffusione Stabile richiede circa 5 minuti, il che potrebbe impedirne l’adozione diffusa e l’applicazione pratica.

Per superare tutti questi problemi, un team di ricercatori di Google Research ha introdotto HyperDreamBooth, che è un iper-rete che genera in modo efficiente un piccolo insieme di pesi personalizzati da una singola immagine di una persona. Con una singola immagine di una persona, l’iper-rete di HyperDreamBooth crea efficacemente una piccola collezione di pesi personalizzati. Il modello di diffusione viene quindi accoppiato con questi pesi unici, che vengono rapidamente regolati. Il risultato finale è un sistema potente in grado di generare il volto di una persona in una varietà di situazioni ed estetica, mantenendo dettagli tematici precisi e la comprensione essenziale del modello di diffusione di varie estetiche e alterazioni semantiche.

La velocità incredibile di HyperDreamBooth è uno dei suoi maggiori successi. È 25 volte più veloce di DreamBooth e sorprendentemente 125 volte più veloce di un’altra tecnologia correlata chiamata Inversione Testuale per personalizzare i volti in soli 20 secondi. Inoltre, mantenendo lo stesso grado di qualità e variazione estetica di DreamBooth, questa procedura di personalizzazione rapida richiede solo un’immagine di riferimento. HyperDreamBooth eccelle anche in termini di dimensione del modello oltre alla velocità. Il modello personalizzato risultante è 10.000 volte più piccolo di un modello DreamBooth regolare, il che è un vantaggio significativo, in quanto rende il modello più gestibile e riduce notevolmente i requisiti di archiviazione.

Il team ha riassunto i loro contributi come segue:

  1. Lightweight DreamBooth (LiDB): È stato introdotto un modello personalizzato di testo-immagine con una parte personalizzata di circa 100KB, ottenuto addestrando il modello DreamBooth in uno spazio di peso a bassa dimensionalità generato da una base incompleta ortogonale casuale all’interno di uno spazio di peso di adattamento a basso rango.
  1. Nuova architettura HyperNetwork: Utilizzando la configurazione di LiDB, HyperNetwork genera pesi personalizzati per soggetti specifici in un modello di diffusione testo-immagine. Ciò fornisce un’inizializzazione forte e direzionale, consentendo un raffinamento rapido per ottenere una fedeltà soggetto elevata in poche iterazioni. Questo metodo è 25 volte più veloce di DreamBooth con prestazioni comparabili.
  1. Raffinamento rilassato del rango: È stata proposta la tecnica di raffinamento rilassato del rango, rilassando il rango di un modello DreamBooth LoRA durante l’ottimizzazione per migliorare la fedeltà del soggetto. Ciò consente l’inizializzazione del modello personalizzato con un’approssimazione iniziale dall’HyperNetwork e quindi il perfezionamento dei dettagli soggetto di alto livello utilizzando il raffinamento rilassato del rango.