Conosci CommonCanvas Un modello di diffusione aperto che è stato allenato utilizzando immagini Creative-Commons.

Scopri CommonCanvas un modello di diffusione aperto addestrato con immagini Creative Commons.

L’intelligenza artificiale ha fatto progressi significativi nella generazione di testo in immagini negli ultimi anni. Trasformare le descrizioni scritte in rappresentazioni visive ha diverse applicazioni, dalla creazione di contenuti all’aiuto alle persone non vedenti e alla narrazione di storie. I ricercatori si sono trovati di fronte a due ostacoli significativi, ovvero la mancanza di dati di alta qualità e le problematiche di copyright legate ai dataset ottenuti dal web.

In una recente ricerca, un team di ricercatori ha proposto l’idea di creare un dataset di immagini con una licenza Creative Commons (CC) e utilizzarlo per addestrare modelli di diffusione aperti in grado di superare Stable Diffusion 2 (SD2). Per fare ciò, è necessario superare due ostacoli principali, che sono i seguenti.

  1. Absenza di didascalie: Sebbene le foto ad alta risoluzione con licenza CC siano a disposizione, spesso mancano le descrizioni testuali, ovvero le didascalie necessarie per addestrare il modello generativo testo-immagine. In assenza di didascalie, il modello trova difficoltà a comprendere e produrre immagini basate su input testuali.
  1. Scarsità di foto CC: Rispetto a dataset più ampi e proprietari come LAION, le foto con licenza CC sono più rare nonostante rappresentino una risorsa significativa. Questa scarsità solleva il dubbio se vi siano dati sufficienti per addestrare modelli di alta qualità in modo efficace.

Il team ha utilizzato una tecnica di apprendimento trasferito e ha creato ottime didascalie sintetiche utilizzando un modello pre-addestrato e le ha abbinato a una selezione attentamente scelta di foto con licenza CC. Questo metodo è semplice e si basa sulla capacità di un modello di generare testo da foto o altri tipi di input. Ciò è stato realizzato compilando un dataset di foto e didascalie fittizie, che possono essere utilizzate per addestrare modelli generativi che traducono parole in immagini.

Il team ha creato una ricetta di addestramento che è efficiente sia dal punto di vista computazionale che dal punto di vista dei dati per affrontare la seconda sfida. Con meno dati, si mira a ottenere la stessa qualità dei modelli SD2 attuali. È necessario solo circa il 3% dei dati, ovvero circa 70 milioni di esempi utilizzati inizialmente per addestrare SD2. Ciò suggerisce che ci sono abbastanza foto con licenza CC accessibili per addestrare modelli di alta qualità in modo efficiente.

Il team ha addestrato diversi modelli di testo-immagine utilizzando i dati e la procedura di addestramento efficace. Insieme, questi modelli formano la famiglia CommonCanvas e rappresentano un grande progresso nel campo dei modelli generativi. Essi sono in grado di generare output visivi di qualità paragonabili a SD2.

Il modello più grande della famiglia CommonCanvas, addestrato su un dataset CC che rappresenta meno del 3% della dimensione del dataset LAION, ottiene prestazioni confrontabili con SD2 nelle valutazioni umane. Nonostante le limitazioni delle dimensioni del dataset e l’utilizzo di didascalie artificiali, il metodo è efficace nella generazione di risultati di alta qualità.

Il team ha riassunto le sue principali contribuzioni nel seguente modo.

  1. Il team ha utilizzato un metodo di apprendimento trasferito chiamato telefonare per produrre ottime didascalie per le foto Creative Commons (CC) che originariamente non avevano didascalie.
  1. Hanno fornito un dataset chiamato CommonCatalog che include circa 70 milioni di foto CC rilasciate con una licenza aperta.
  1. Il dataset CommonCatalog viene utilizzato per addestrare una serie di modelli di diffusione latente (LDM). Insieme, questi modelli sono chiamati CommonCanvas e si comportano in modo competitivo sia qualitativamente che quantitativamente rispetto alla linea di base SD2-base.
  1. Lo studio applica una serie di ottimizzazioni dell’addestramento, che consente al modello SD2-base di addestrarsi quasi tre volte più velocemente.
  1. Per favorire la collaborazione e ulteriori studi, il team ha reso liberamente disponibili su GitHub il modello CommonCanvas addestrato, le foto CC, le didascalie artificiali e il dataset CommonCatalog.