Cos’è il Transfer Learning nel Deep Learning?

Il Transfer Learning nel Deep Learning Cosa è e come funziona?

Modelli pre-addestrati in machine learning e deep learning

Foto di Arnold Francisca su Unsplash

In parole semplici, è una tecnica per utilizzare un modello addestrato su un dataset che viene eseguito su un dataset nuovo e diverso. L’idea principale è utilizzare la conoscenza del modello addestrato e applicarla a un’applicazione nuova ma correlata. Questa tecnica è particolarmente utile nel campo della computer vision e del natural language processing (NLP) a causa della grande quantità di dati con informazioni semantiche.

Qual è il problema dell’addestramento dei modelli di deep learning da zero?

  1. È necessario disporre di molti dati etichettati che richiedono più tempo e sforzo se non sono disponibili pubblicamente.
  2. Richiede molto tempo per addestrare i modelli su grandi dataset.

Soluzione per evitare l’addestramento dei modelli su grandi dati

  • Possiamo utilizzare modelli pre-addestrati.

I modelli pre-addestrati sono modelli che sono già stati addestrati su diversi grandi dataset con diverse categorie. Cosa succede se i nostri dati di input sono diversi dalle classi dei modelli pre-addestrati? Per risolvere questo problema, le tecniche di transfer learning svolgono un ruolo importante.

Pre-addestrato in base al tipo:

  1. Per la computer vision: VGG, ResNet, MobileNet, ecc.
  2. Per il NLP: GPT-3/4, Bert, XLNet, T5, ecc.

Vantaggi del transfer learning:

  1. Permette di risparmiare tempo nell’addestramento del modello.
  2. Nella maggior parte dei casi, fornisce risultati migliori rispetto alle reti neurali artificiali (ANN).
  3. Può essere addestrato anche con pochi dati.

Esempio:

  1. Prendiamo ad esempio l’architettura del modello VGG16 che è stato addestrato su ImageNet (1000 classi); ha strati di convoluzione e strati completamente connessi. Gli strati di convoluzione vengono utilizzati per catturare le informazioni spaziali e gli strati FC vengono utilizzati per classificare l’oggetto.
  2. Supponiamo che la nostra classificazione non rientri in quelle 1000 classi; in questo caso, manteniamo gli strati di convoluzione del modello pre-addestrato e aggiungiamo gli strati completamente connessi personalizzati. Di conseguenza, meno dati utilizzeranno la conoscenza precedentemente addestrata e verranno addestrati sugli strati personalizzati.

Come funziona il transfer learning: