Rete neurale convoluzionale per principianti

La rete neurale convoluzionale per principianti una guida completa

Fondamenti delle reti neurali convoluzionali

Immagine da unsplash.com

Ho scritto questo post come parte della mia preparazione per una delle lezioni che ho tenuto a Interview Kickstart per preparare i professionisti a trovare lavoro presso le migliori aziende tecnologiche. Se stai preparando un colloquio o semplicemente rafforzando le tue basi, questo post potrebbe esserti utile.

In questo post, esamineremo i concetti di base delle reti neurali convoluzionali. Inizieremo con l’operazione di convoluzione, per poi parlare dei layer di convoluzione e di come vengono costruite le reti convoluzionali.

Cominciamo.

Le reti neurali convoluzionali (CNN) sono composte da diversi “layer di convoluzione”. Questi layer eseguono l'”operazione di convoluzione”. La convoluzione è un’operazione fondamentale nell’elaborazione di segnali e immagini. Vediamo innanzitutto cos’è questa operazione.

Cos’è un’operazione di convoluzione?

La convoluzione è l’operazione matematica tra un kernel (filtro) e una mappa di caratteristiche di input.

Il kernel è di solito una piccola matrice, ad esempio 3×3 o 5×5. L’input è sempre una mappa di caratteristiche con altezza, larghezza e canali. Il funzionamento dell’operazione di convoluzione prevede che il kernel si sposti sull’input e calcoli il prodotto scalare tra il kernel e le regioni locali dell’input. Questa moltiplicazione e somma del prodotto scalare produce un singolo valore nella mappa di caratteristiche di output.

Mentre il filtro scorre su tutte le posizioni, genera una mappa di attivazione bidimensionale chiamata mappa di caratteristiche di output. Per ogni passaggio del filtro (kernel) sull’immagine o sulla mappa di caratteristiche di input, calcoliamo il prodotto scalare elemento per elemento e li sommiamo insieme. Questo dà una voce nella mappa di output:

operazione di convoluzione - immagine dell'autore

Successivamente, spostiamo il filtro verso destra su un’altra regione locale della mappa di input e produce un’altra voce nella mappa di output:

operazione di convoluzione - immagine dell'autore