Microsoft Research presenta Florence-2 un nuovo modello di base visionaria con una rappresentazione unificata basata su prompt per una varietà di compiti di visione informatica e visione del linguaggio

Microsoft Research presenta Florence-2 un modello visionario di base con rappresentazione unificata basata sugli input per svariati compiti di visione informatica e linguaggio

È emersa una tendenza evidente nei sistemi di Intelligenza Generale Artificiale (IGA) verso l’utilizzo di rappresentazioni pre-addestrate e adattabili, che offrono vantaggi indipendenti dal compito in varie applicazioni. L’elaborazione del linguaggio naturale (NLP) ne è un buon esempio, poiché modelli sofisticati dimostrano flessibilità possedendo una conoscenza approfondita che copre diversi domini e compiti con istruzioni dirette. La popolarità del NLP incoraggia una strategia complementare nella visione artificiale. Sorgono ostacoli unici dalla necessità di capacità percettive ampie in una rappresentazione universale per varie attività legate alla visione. Mentre l’elaborazione del linguaggio naturale (NLP) si concentra principalmente sul testo, la visione artificiale deve gestire dati visivi complessi come caratteristiche, contorni mascherati e posizionamento degli oggetti. Nella visione artificiale, per ottenere una rappresentazione universale è necessaria una gestione abile di vari compiti complessi disposti in due dimensioni, come mostrato nella Figura 1.

Figura 1

Gerarchia Spaziale: Il modello deve riconoscere informazioni spaziali di diverse dimensioni, comprendendo dettagli di pixel di alta qualità e idee a livello di immagine. Per sostenere la gerarchia spaziale complessa nella visione, il modello deve essere in grado di gestire una gamma di granularità.

Granularità Semantica: Nella visione artificiale, la rappresentazione universale dovrebbe coprire una gamma di granularità semantica. Il paradigma si sposta da titoli astratti a spiegazioni più dettagliate, fornendo comprensione flessibile per vari utilizzi.

Questa ricerca è caratterizzata da caratteristiche distintive e sfide sostanziali. Un ostacolo chiave è la necessità di ulteriori dati, ostacolando lo sviluppo di un modello fondamentale in grado di catturare le sfumature intricate della gerarchia spaziale e della granularità semantica. I set di dati esistenti, come ImageNet, COCO e Flickr30k Entities, adattati per applicazioni specializzate, sono ampiamente etichettati dagli esseri umani. Per superare questo limite, è imperativo generare ampie annotazioni per ogni immagine su scala più ampia. Un’altra sfida è l’assenza di un modello che integri senza soluzione di continuità la gerarchia spaziale e la granularità semantica nella visione artificiale. Con un design specifico per il compito, i modelli tradizionali si comportano bene in compiti come la segmentazione semantica, l’identificazione degli oggetti e la didascalia delle immagini. Tuttavia, è fondamentale creare un modello completo e coerente in grado di adattarsi a diversi compiti di visione in modo indipendente dal compito, assumendo anche nuovi compiti con pochissimo o nessun sintonizzazione specifica del compito.

Attraverso l’apprendimento pre-adostramento unificato e il design del network, il modello si fa strada nell’integrazione delle caratteristiche spaziali, temporali e multimodali nella visione artificiale. La prima iterazione evolutiva eccelle nel trasferimento dell’apprendimento attraverso la sintonizzazione specifica del compito utilizzando adattatori personalizzati e l’apprendimento pre-adostramento con coppie di testo-immagine rumorose. Tuttavia, la sua dipendenza da grandi set di dati specifici del compito e adattatori lascia delle lacune quando si tratta di affrontare i due principali problemi sopra menzionati. In questo lavoro, i ricercatori di Azure forniscono un’infrastruttura universale che viene raggiunta utilizzando l’apprendimento multitask con ricche annotazioni visive. Ciò porta a una rappresentazione unificata basata su prompt per vari compiti di visione, che affronta con successo i problemi di dati comprensivi incompleti e mancanza di un’architettura uniforme.

Per l’apprendimento multitask è necessario un ampio volume di dati annotati di alta qualità. Invece di dipendere dall’annotazione umana che richiede tempo, il loro motore di dati crea un ampio set di dati visivi chiamato \fld, che contiene 5,4 miliardi di annotazioni per 126 milioni di foto. In questo motore ci sono due moduli di elaborazione efficaci. Il primo modulo si discosta dalla strategia convenzionale di annotazione singola e manuale, utilizzando modelli specializzati per annotare le foto congiuntamente e autonomamente. Come nella teoria della saggezza delle folle, molti modelli collaborano per creare un consenso, ottenendo un’interpretazione dell’immagine più imparziale e affidabile. Utilizzando modelli di base che sono stati appresi, il secondo modulo raffina e filtra ripetutamente queste annotazioni automatiche.

Il loro modello utilizza un’architettura di sequenza su sequenza (seq2seq), integrando un codificatore di immagini e un codificatore-decodificatore multimodalità sfruttando questo ampio set di dati. Questa architettura supporta una serie di compiti di visione senza richiedere adattamenti architettonici specifici del compito, in linea con l’obiettivo della comunità NLP di creazione di modelli flessibili con una base uniforme. Ogni annotazione nel set di dati viene costantemente standardizzata in output testuali. Ciò consente un’ottimizzazione coerente di una singola strategia di apprendimento multitask utilizzando la stessa funzione di perdita come obiettivo. Il risultato è un modello di fondazione visiva flessibile, o modello, che può gestire una serie di funzioni, inclusi il riconoscimento degli oggetti, la didascalia e il grounding, tutto sotto il controllo di un singolo modello con parametri standardizzati. I prompt testuali vengono utilizzati per attivare i compiti, in linea con la metodologia utilizzata dai modelli di linguaggio di grandi dimensioni (LLM).

Il loro metodo permette di ottenere una rappresentazione universale ed ha un ampio utilizzo in molte attività visive. Le principali conclusioni sono:

  • Il modello è un modello flessibile di base nella visione che offre una nuova performance di ultima generazione senza bisogno di allenamento in compiti, compresa la comprensione dell’espressione di riferimento su RefCOCO, l’ancoraggio visivo su Flick30k e la sottotitolazione su COCO.
  • Nonostante le sue dimensioni ridotte, il modello compete con modelli più specializzati dopo essere stato ottimizzato utilizzando dati umani annotati pubblicamente disponibili. In particolare, il modello migliorato stabilisce nuovi punteggi di riferimento di ultima generazione su RefCOCO.
  • Il backbone pre-allenato supera i modelli supervisionati e auto-supervisionati nelle attività successive, come il rilevamento degli oggetti COCO e la segmentazione delle istanze, oltre alla segmentazione semantica ADE20K. Il loro modello, che utilizza i framework Mask-RCNN, DINO e UperNet, offre un aumento significativo di 6,9, 5,5 e 5,9 punti rispettivamente nei dataset COCO e ADE20K, quadruplicando l’efficienza di allenamento dei modelli pre-allenati su ImageNet.