Ricerca dell’immagine in 5 minuti
Ricerca dell'immagine in soli 5 minuti
Ricerca avanzata di immagini in modo semplice e veloce
In questo post implementeremo la ricerca di testo in immagini (che ci permette di cercare un’immagine tramite testo) e la ricerca di immagini simili (che ci permette di cercare un’immagine basandoci su un’immagine di riferimento) utilizzando un modello pre-addestrato leggero. Il modello che utilizzeremo per calcolare la similarità tra immagini e testo è ispirato al Contrastive Language Image Pre-Training (CLIP), di cui parlo in un altro articolo.
A chi è utile? Sviluppatori che desiderano implementare la ricerca di immagini, scienziati dei dati interessati ad applicazioni pratiche, o lettori non tecnici che desiderano conoscere l’intelligenza artificiale in pratica.
Quanto avanzato è questo post? Questo post ti guiderà nell’implementazione della ricerca di immagini in modo rapido e semplice possibile.
Requisiti necessari: Esperienza di base nella programmazione.
- Partecipa gratuitamente alla conferenza ODSC West Virtual con il Pass Open
- Le reti neurali raggiungono la generalizzazione del linguaggio simile a quella umana
- Prossima generazione di reti neurali la ricerca di NVIDIA annuncia una serie di progressi nell’IA a NeurIPS
Cosa stiamo facendo e come lo stiamo facendo
Questo articolo è un complemento del mio articolo su “Contrastive Language-Image Pre-Training”. Sentiti libero di dargli un’occhiata se desideri una comprensione più approfondita della teoria:
CLIP, Intuitivamente ed esaustivamente spiegato
Creazione di rappresentazioni forti di immagini e linguaggio per compiti di machine learning generale.
towardsdatascience.com
I modelli CLIP sono allenati per prevedere se una didascalia arbitraria si abbina a un’immagine arbitraria. Utilizzeremo questa funzionalità generale per creare il nostro sistema di ricerca di immagini. In particolare, utilizzeremo gli encoder di immagini e testo di CLIP per condensare gli input in un vettore, chiamato embedding, che può essere pensato come un riassunto dell’input.
L’intero concetto alla base di CLIP è che testo e immagini simili avranno embedding vettoriali simili.