Questo articolo sull’IA presenta un’analisi completa delle colonne vertebrali della visione artificiale svelando i punti di forza e di debolezza dei modelli preaddestrati

Analisi completa delle colonne vertebrali dell'IA nella visione artificiale scoperta dei punti di forza e di debolezza dei modelli preaddestrati

Nella visione artificiale, le spalle sono componenti fondamentali di molti modelli di apprendimento profondo. Attività successive come categorizzazione, rilevamento e segmentazione si basano sulle caratteristiche estratte dalla spalla. Negli ultimi anni, c’è stata una proliferazione di nuove strategie di preallenamento e architetture di spalle. Di conseguenza, i professionisti incontrano sfide nel scegliere quale sia la spalla ideale per la loro attività specifica e l’insieme di dati.

The Battle of the Backbones (BoB) è un nuovo benchmark su larga scala che confronta molti checkpoint preallenati e basi casuali pubblicamente disponibili su varie attività successive. È stato sviluppato da ricercatori della New York University, la Johns Hopkins University, l’University of Maryland, il Georgia Institute of Technology, Inria e Meta AI Research. I risultati di BoB offrono chiarezza sui meriti relativi delle diverse topologie delle spalle e delle strategie di preallenamento.

Lo studio ha scoperto alcune cose interessanti, tra cui:

  • Le reti convoluzionali preallenanti supervisionate di solito funzionano meglio rispetto ai transformers. Questo probabilmente perché le reti convoluzionali preallenanti supervisionate sono accessibili ed addestrate su set di dati più grandi. D’altra parte, i modelli auto-supervisionati funzionano meglio rispetto ai loro analoghi supervisionati quando si confrontano i risultati tra insiemi di dati delle stesse dimensioni.
  • Rispetto alle reti CNN, i ViTs sono più sensibili al numero di parametri e alla quantità di dati di preallenamento. Ciò indica che addestrare i ViTs potrebbe richiedere più dati e potenza di elaborazione rispetto all’addestramento dei CNN. L’accuratezza, i costi di calcolo e i professionisti dovrebbero considerare compromessi nella disponibilità dei dati prima di optare per un’architettura della spalla.
  • Il grado di correlazione tra le prestazioni delle attività è elevato. Le migliori spalle di BoB funzionano in modo eccellente in una vasta gamma di scenari.
  • La modifica end-to-end aiuta i transformers più dei CNN nei lavori di previsione densa. Ciò indica che i transformers possono dipendere più dalle attività e dall’insieme di dati dei CNN.
  • La modellizzazione visione-linguaggio utilizzando modelli CLIP e altre promettenti architetture avanzate. Il preallenamento di CLIP è il migliore tra i transformers di visione di base, anche rispetto alle spalle addestrate supervisionate di ImageNet-21k. Questi dati dimostrano che il preallenamento nella visione-linguaggio può migliorare i risultati nelle attività di visione artificiale. Gli autori consigliano ai professionisti di indagare sulle spalle preallenate disponibili tramite CLIP.

Lo stato dell’arte dei framework di visione artificiale è mappato in BoB. Tuttavia, l’area è dinamica, con progressi continui su architetture innovative e tecniche di preallenamento. Pertanto, il team ritiene essenziale valutare e confrontare costantemente nuove infrastrutture e trovare modi per migliorare le prestazioni.