I ricercatori di Google AI presentano Pic2Word un nuovo approccio al recupero di immagini composte senza etichetta (ZS-CIR)
Google AI researchers present Pic2Word, a new approach to zero-shot compositionally image retrieval (ZS-CIR).
Il recupero delle immagini è un processo complesso se cerchiamo di rappresentarlo accuratamente. Molti scienziati della ricerca stanno lavorando su questo processo per garantire una perdita minima rispetto all’immagine reale fornita. I ricercatori hanno trovato un modo per rappresentare un’immagine tramite embedding di testo. Tuttavia, formattare un’immagine tramite testo è difficile in quanto si verifica una grave perdita e una minore precisione. Questa rappresentazione dell’immagine rientra in una vasta categoria di Computer Vision e Reti Neurali Convoluzionali. I ricercatori hanno sviluppato un sistema di recupero immagini composito (CIR) per avere una perdita minima, ma il problema di questo metodo è che richiede un grande dataset per addestrare il modello.
Per avere una soluzione a questo problema, i ricercatori di Google AI hanno introdotto un metodo chiamato Pic2Word. Questo è lo stesso di mappare una funzione da x a y. Pertanto, le immagini vengono mappate verso parole per garantire una perdita minima a zero-shot. Il vantaggio di questo metodo è che non richiede dati etichettati. Può agire anche su immagini non etichettate e su immagini con didascalie, che sono più facili da raccogliere rispetto al dataset etichettato. Gli scienziati della ricerca lo trovano molto simile alle Reti Neurali Convoluzionali. L’insieme di addestramento comprende “Query e Descrizione”. Queste informazioni vengono trasmesse al modello di recupero, che agisce come lo strato nascosto rispetto alle reti neurali. Passiamo attraverso questi strati nascosti, che forniscono un’immagine di base e la nostra immagine come output. In questo caso, c’è una perdita minima tra l’immagine di input e l’immagine di output.
Il modello pre-addestrato di immagini contrastive proposto dagli scienziati della ricerca è un modello di machine learning che genera embedding per il testo e le immagini. L’immagine viene passata all’encoder visivo, che fornisce spazi di embedding visivo. Questo viene elaborato ulteriormente nell’encoder di testo, che genera embedding di testo. Questi embedding visivi e di testo vengono elaborati ulteriormente, fornendo una perdita minima tramite questo modello. Questa perdita viene chiamata perdita contrastiva. Gli embedding di testo vengono utilizzati per cercare un’immagine, che ci restituisce un’immagine recuperata. L’output dell’immagine è un’immagine diversa ma con lo stesso contenuto di prima. Pertanto, la perdita che si è verificata è minima tramite questo metodo. Il modello di composizione degli attributi di moda è un modello di machine learning in cui viene ottenuta la stessa immagine come immagine di input. Il colore ottenuto in questo modello è anche lo stesso dell’input.
- Incontra PoisonGPT un metodo di intelligenza artificiale per introdurre un modello maligno nella catena di approvvigionamento LLM altrimenti fidata.
- Rapporto dell’OCSE il 27% dei posti di lavoro a rischio a causa dell’IA
- Top 14 Progetti di Data Mining con Codice Sorgente
Questi metodi sono molto utili per mappare un’immagine in token di parole. I ricercatori propongono di utilizzare un modello CLIP addestrato che tratta un’immagine come un token di testo in modo che l’encoder del linguaggio possa comporre in modo flessibile le caratteristiche dell’immagine e la descrizione del testo. I ricercatori effettuano un’analisi approfondita dimostrando Pic2Word su varie diverse attività.