Appunti da CVPR 2023

CVPR 2023 Notes

e alcuni giorni intorno a Canada Place ….

CVPR 2023 presso il Vancouver Convention Center. Fonte: autore

Sono stato abbastanza fortunato da partecipare a CVPR, la conferenza di punta su Visione Artificiale e Riconoscimento di Pattern, presso il Vancouver Convention Center a Vancouver, BC, dal 18 al 22 giugno 2023. C’erano molti workshop, tutorial e sessioni interessanti, a volte in parallelo. Ho imparato molto e sto ancora esaminando alcuni degli articoli e dei video post-conferenza. In questo post, ne condividerò alcuni.

Tutto su ViTs: Comprendere e Interpretare l’Attenzione nella Visione

Questo è stato un tutorial molto ben spiegato organizzato da Hila Chefer e Sayak Paul. Hila ha svolto un lavoro approfondito sull’interpretabilità dell’attenzione/trasformatore ed è un’ottima relatrice. A mio parere, il suo lavoro è davvero importante perché penso che pochi praticanti di intelligenza artificiale comprendano il funzionamento interno dei trasformatori e possano interpretare i risultati. Ciò accade perché non dispongono degli strumenti giusti. Il lavoro di Hila può effettivamente essere un punto di accesso verso una migliore comprensione dei modelli basati su trasformatori, che rappresentano fondamentalmente tutto il futuro. Dettagli: https://all-things-vits.github.io/atv/

Workshop: Comprendere e Generare Video a Lungo Formato

Questo workshop aveva alcune sfide interessanti legate al mio lavoro, come la rilevazione dei confini degli eventi video, la sottotitolazione dei confini degli eventi, ecc. Ero impegnato nel tutorial precedente, quindi non ho potuto partecipare a questo, ma volevo menzionarlo per riferimento futuro. Per ulteriori dettagli, visita https://sites.google.com/view/loveucvpr23

Workshop: Ragionamento in Dominio Aperto in Ambienti Multi-Modalità

Karel Lenc, uno degli autori del paper Deepmind Flamingo, ha condiviso il suo lavoro su Valutazione e Addestramento di Grandi Modelli Linguistici con Capacità di Visione presso Flamingo. Karel ha condiviso l’architettura del modello, una rete basata solo sul decoder dei trasformatori. Il processo di elaborazione visiva in Flamingo è simile a CLIP, ma invece di ViT, Flamingo utilizza NFNet, eliminando il layer di pooling dalla rete e lavorando direttamente con i vettori di caratteristiche dell’immagine. Propone una nuova tecnica di campionamento chiamata ‘Perceiver Resampler’ all’interno del processo di elaborazione visiva. Utilizzano anche una novità chiamata ‘gated cross…