Immergiti nel pensiero di un annotatore Generazione delle istruzioni per l’etichettatura del dataset

Esplora il pensiero di un annotatore etichettando il dataset

Siamo tutti stupiti dai progressi che abbiamo visto nei modelli di intelligenza artificiale di recente. Abbiamo visto come i modelli generativi si siano rivoluzionati, passando da un algoritmo di generazione di immagini eccentrico al punto in cui è diventato difficile differenziare i contenuti generati dall’IA da quelli reali.

Tutti questi progressi sono resi possibili grazie a due punti principali. Le strutture avanzate delle reti neurali e, forse ancora più importantemente, la disponibilità di dataset su larga scala.

Prendiamo ad esempio la diffusione stabile. I modelli di diffusione sono con noi da un po’ di tempo, ma non li avevamo mai visti raggiungere questo tipo di risultato prima. Ciò che ha reso la diffusione stabile così potente è stato l’estremamente ampio dataset su cui è stato allenato. Quando diciamo ampio, intendiamo davvero ampio. Stiamo parlando di oltre 5 miliardi di campioni di dati qui.

Preparare un tale dataset è ovviamente un compito molto impegnativo. Richiede una raccolta accurata di punti dati rappresentativi e un’etichettatura supervisionata. Per la diffusione stabile, questo potrebbe essere stato automatizzato in qualche misura. Ma l’elemento umano è sempre presente nell’equazione. Il processo di etichettatura svolge un ruolo cruciale nell’apprendimento supervisionato, specialmente nella computer vision, poiché può rendere o distruggere l’intero processo.

Nel campo della computer vision, i dataset su larga scala fungono da base per numerosi compiti e progressi. Tuttavia, la valutazione e l’utilizzo di questi dataset spesso dipendono dalla qualità e dalla disponibilità delle istruzioni di etichettatura (LIs) che definiscono l’appartenenza alle classi e forniscono indicazioni agli annotatori. Purtroppo, le LIs accessibili al pubblico vengono raramente rilasciate, causando una mancanza di trasparenza e riproducibilità nella ricerca di computer vision.

Questa mancanza di trasparenza ha implicazioni significative, tra cui sfide nella valutazione dei modelli, nell’affrontare i bias nelle annotazioni e nella comprensione delle limitazioni imposte dalle politiche di istruzioni.

Ora abbiamo nuove ricerche tra le mani che sono state condotte per colmare questa lacuna. È arrivato il momento di conoscere il compito di Generazione delle Istruzioni di Etichettatura (LIG).

L’obiettivo di LIG è generare istruzioni di etichettatura informative e accessibili (LIs) per dataset privi di istruzioni pubblicamente disponibili. Sfruttando modelli di visione e linguaggio su larga scala e proponendo il framework Proxy Dataset Curator (PDC), la ricerca cerca di generare istruzioni di etichettatura di alta qualità, migliorando così la trasparenza e l’utilità dei dataset di benchmark per la comunità di computer vision.

Panoramica di LIG. Fonte: https://arxiv.org/pdf/2306.14035.pdf

L’obiettivo di LIG è generare un insieme di istruzioni che non solo definiscono l’appartenenza alle classi, ma forniscono anche descrizioni dettagliate dei confini delle classi, sinonimi, attributi e casi particolari. Queste istruzioni sono costituite sia da descrizioni testuali che da esempi visivi, offrendo un set di istruzioni di etichettatura del dataset completo e informativo.

Per affrontare la sfida di generare LIs, il framework proposto sfrutta modelli di visione e linguaggio su larga scala come CLIP, ALIGN e Florence. Questi modelli forniscono rappresentazioni potenti di testo e immagini che consentono prestazioni robuste su vari compiti. Il framework Proxy Dataset Curator (PDC) viene introdotto come soluzione algoritmica computazionalmente efficiente per LIG. Sfruttando VLM preallenati per attraversare rapidamente il dataset e recuperare le migliori coppie di testo-immagine rappresentative di ogni classe. Attraverso la fusione multimodale, il framework PDC dimostra la sua capacità di generare istruzioni di etichettatura di alta qualità e informative senza la necessità di una curatela manuale estensiva.

Nonostante il framework proposto mostri promesse, ci sono diverse limitazioni. Ad esempio, l’attenzione attuale è focalizzata sulla generazione di coppie di testo e immagini e non viene proposto nulla per istruzioni multimodali più espressive. Le istruzioni di testo generate potrebbero essere meno dettagliate rispetto alle istruzioni generate dall’uomo, ma ci si aspetta che gli sviluppi nei modelli di linguaggio e visione affrontino questa limitazione. Inoltre, attualmente il framework non include esempi negativi, ma le future versioni potrebbero incorporarli per fornire un set di istruzioni più completo.