Ricerca dell’immagine in 5 minuti

Ricerca dell'immagine in soli 5 minuti

Ricerca avanzata di immagini in modo semplice e veloce

“Ponderando i vettori” dell'autore utilizzando MidJourney. Tutte le immagini sono dell'autore, salvo diversa indicazione.

In questo post implementeremo la ricerca di testo in immagini (che ci permette di cercare un’immagine tramite testo) e la ricerca di immagini simili (che ci permette di cercare un’immagine basandoci su un’immagine di riferimento) utilizzando un modello pre-addestrato leggero. Il modello che utilizzeremo per calcolare la similarità tra immagini e testo è ispirato al Contrastive Language Image Pre-Training (CLIP), di cui parlo in un altro articolo.

I risultati della ricerca di immagini con il testo “un arcobaleno vicino all'acqua”

A chi è utile? Sviluppatori che desiderano implementare la ricerca di immagini, scienziati dei dati interessati ad applicazioni pratiche, o lettori non tecnici che desiderano conoscere l’intelligenza artificiale in pratica.

Quanto avanzato è questo post? Questo post ti guiderà nell’implementazione della ricerca di immagini in modo rapido e semplice possibile.

Requisiti necessari: Esperienza di base nella programmazione.

Cosa stiamo facendo e come lo stiamo facendo

Questo articolo è un complemento del mio articolo su “Contrastive Language-Image Pre-Training”. Sentiti libero di dargli un’occhiata se desideri una comprensione più approfondita della teoria:

CLIP, Intuitivamente ed esaustivamente spiegato

Creazione di rappresentazioni forti di immagini e linguaggio per compiti di machine learning generale.

towardsdatascience.com

I modelli CLIP sono allenati per prevedere se una didascalia arbitraria si abbina a un’immagine arbitraria. Utilizzeremo questa funzionalità generale per creare il nostro sistema di ricerca di immagini. In particolare, utilizzeremo gli encoder di immagini e testo di CLIP per condensare gli input in un vettore, chiamato embedding, che può essere pensato come un riassunto dell’input.

Il compito di un encoder è quello di riassumere un input in una rappresentazione significativa, chiamata embedding. Immagine tratta dal mio articolo su CLIP.

L’intero concetto alla base di CLIP è che testo e immagini simili avranno embedding vettoriali simili.