Incontra JourneyDB un dataset di grandi dimensioni con 4 milioni di immagini diverse e di alta qualità generate, selezionate per la comprensione visiva multimodale.

'Incontra JourneyDB, un vasto dataset di 4 milioni di immagini diverse e di alta qualità, appositamente selezionate per la comprensione visiva multimodale.'

Con l’avanzamento dei modelli di linguaggio generativi come ChatGPT e DALL-E e l’aumento della popolarità dell’Intelligenza Artificiale generativa, generare contenuti come un essere umano non è più un sogno. Ora tutto è fattibile, compresa la risposta alle domande, il completamento del codice e la generazione di contenuti a partire da descrizioni testuali, così come la creazione di immagini sia a partire da testo che da immagini stesse. Di recente, l’AI è stata all’altezza dell’ingegnosità umana. Il noto chatbot sviluppato da OpenAI, chiamato ChatGPT, si basa sull’architettura transformer di GPT 3.5 ed è utilizzato da quasi tutti. L’ultima versione di GPT, cioè GPT 4, è multimodale, a differenza della versione precedente, GPT 3.5, che consente solo a ChatGPT di accettare input testuali.

La qualità dei contenuti generativi è aumentata significativamente grazie allo sviluppo di modelli di diffusione. A causa di questi sviluppi, le piattaforme di Intelligenza Artificiale Generativa (AIGC), come DALLE, Stability AI, Runway e Midjourney, sono diventate sempre più popolari poiché permettono agli utenti di creare immagini di alta qualità basate su prompt testuali forniti in linguaggio naturale. Nonostante i progressi nella comprensione multimodale, i modelli di visione-linguaggio hanno ancora difficoltà a comprendere le immagini generate. Rispetto ai dati reali, le immagini sintetiche mostrano un grado maggiore di variabilità di contenuto e stile, rendendo più difficile per i modelli comprenderle correttamente.

Per affrontare questi problemi, un team di ricercatori ha introdotto JourneyDB, un dataset su larga scala appositamente curato per la comprensione visiva multimodale delle immagini generative. JourneyDB contiene 4 milioni di foto uniche e di alta qualità che sono state create utilizzando prompt testuali diversi. Questo dataset si concentra sia sull’interpretazione del contenuto che dello stile e cerca di offrire una risorsa completa per la formazione e la valutazione delle capacità dei modelli di comprendere le immagini generate.

I quattro compiti inclusi nel benchmark suggerito sono i seguenti.

  1. Inversione del prompt – L’inversione del prompt è stata utilizzata per trovare i prompt testuali utilizzati dall’utente per generare un’immagine. Questo testa la comprensione del modello del contenuto e dello stile delle immagini generate.
  1. Recupero dello stile – Il team si è concentrato sul recupero dello stile in modo che il modello identifichi e recuperi immagini generative simili in base ai loro attributi stilistici. Questo valuta l’abilità del modello nel distinguere le sfumature stilistiche all’interno delle immagini generate.
  1. Descrizione dell’immagine – Nella descrizione dell’immagine, al modello viene chiesto di generare didascalie descrittive che rappresentino accuratamente il contenuto dell’immagine generativa, valutando così la capacità del modello di comprendere ed esprimere efficacemente gli elementi visivi del contenuto generato in linguaggio naturale.
  1. Risposta alle domande visive – Attraverso il Question Answering Visuale (VQA), il modello fornisce risposte accurate a domande relative all’immagine generativa. Il modello è in grado di comprendere il contenuto visivo e stilistico e fornire risposte pertinenti basate sulle domande fornite.

Il team ha raccolto 4.692.751 coppie di immagini-prompt testuali e le ha divise in tre set: un set di addestramento, un set di convalida e un set di test. Per la valutazione, il team ha condotto ampi esperimenti utilizzando il dataset di benchmark. I risultati hanno mostrato che i modelli multimodali all’avanguardia non si comportano altrettanto bene come fanno sui dataset reali, ma alcuni aggiustamenti proposti al dataset hanno notevolmente migliorato le loro prestazioni.