In cerca di un metodo generalizzabile per l’adattamento di dominio senza fonte
Metodo generalizzabile per adattamento di dominio senza fonte
Pubblicato da Eleni Triantafillou, ricercatrice scientifica, e Malik Boudiaf, ricercatore studente, Google
L’apprendimento profondo ha recentemente fatto enormi progressi in una vasta gamma di problemi e applicazioni, ma i modelli spesso falliscono in modo imprevedibile quando vengono utilizzati in domini o distribuzioni non visti in precedenza. L’adattamento del dominio senza sorgente (SFDA) è un’area di ricerca che mira a progettare metodi per adattare un modello preaddestrato (addestrato su un “dominio sorgente”) a un nuovo “dominio target”, utilizzando solo dati non etichettati provenienti da quest’ultimo.
La progettazione di metodi di adattamento per modelli profondi è un’area di ricerca importante. Mentre l’aumento della scala dei modelli e dei set di dati di addestramento è stato un elemento chiave per il loro successo, una conseguenza negativa di questa tendenza è che l’addestramento di tali modelli è sempre più costoso dal punto di vista computazionale, rendendo in alcuni casi l’addestramento di modelli di grandi dimensioni meno accessibile e aumentando inutilmente l’impronta di carbonio. Un modo per mitigare questo problema è progettare tecniche che possano sfruttare e riutilizzare modelli già addestrati per affrontare nuovi compiti o generalizzare a nuovi domini. Infatti, l’adattamento dei modelli a nuovi compiti è ampiamente studiato nell’ambito del trasferimento dell’apprendimento.
SFDA è un’area particolarmente pratica di questa ricerca perché diverse applicazioni del mondo reale in cui si desidera l’adattamento soffrono della non disponibilità di esempi etichettati dal dominio target. In effetti, SFDA sta attirando sempre più attenzione [1, 2, 3, 4]. Tuttavia, sebbene sia motivata da obiettivi ambiziosi, la maggior parte della ricerca su SFDA è basata su un quadro molto limitato, considerando semplici spostamenti di distribuzione nei compiti di classificazione delle immagini.
- Come costruire applicazioni di AI generative e mondi virtuali in 3D
- Incontra l’artefice lo sviluppatore adotta NVIDIA Jetson come forza dietro il pit droid alimentato da intelligenza artificiale
- La foto professionale del volto di uno studente asiatico del MIT diventa caucasica con uno strumento di intelligenza artificiale
In una significativa deviazione da quella tendenza, concentriamo la nostra attenzione sul campo della bioacustica, dove gli spostamenti di distribuzione naturalmente presenti sono ubiqui, spesso caratterizzati da dati di destinazione etichettati insufficienti e rappresentano un ostacolo per i professionisti. Lo studio di SFDA in questa applicazione può quindi non solo informare la comunità accademica sulla generalizzabilità dei metodi esistenti e identificare direzioni di ricerca aperte, ma può anche beneficiare direttamente i professionisti del settore e contribuire ad affrontare una delle sfide più grandi del nostro secolo: la conservazione della biodiversità.
In questo post, annunciamo “In cerca di un metodo generalizzabile per l’adattamento del dominio senza sorgente”, che apparirà a ICML 2023. Mostriamo che i metodi SFDA all’avanguardia possono sottoperformare o addirittura collassare quando si confrontano con spostamenti di distribuzione realistici in bioacustica. Inoltre, i metodi esistenti si comportano in modo diverso l’uno rispetto all’altro rispetto a quanto osservato nei benchmark di visione e, sorprendentemente, a volte si comportano peggio di nessun adattamento affatto. Proponiamo inoltre NOTELA, un nuovo metodo semplice che supera i metodi esistenti su questi spostamenti mostrando al contempo una forte performance su una serie di set di dati di visione. In generale, concludiamo che valutare i metodi SFDA (solo) sui dataset e sugli spostamenti di distribuzione comunemente utilizzati ci lascia con una visione miope delle loro prestazioni relative e della loro generalizzabilità. Per mantenere fede alle loro promesse, i metodi SFDA devono essere testati su una gamma più ampia di spostamenti di distribuzione e sosteniamo la considerazione di quelli naturalmente presenti che possono beneficiare applicazioni ad alto impatto.
Spostamenti di distribuzione in bioacustica
Gli spostamenti di distribuzione naturalmente presenti sono ubiqui in bioacustica. Il più grande dataset etichettato per i canti degli uccelli è Xeno-Canto (XC), una collezione di registrazioni contribuite dagli utenti di uccelli selvatici provenienti da tutto il mondo. Le registrazioni in XC sono “focalizzate”: mirano a un individuo catturato in condizioni naturali, dove il canto dell’uccello identificato è in primo piano. Tuttavia, per scopi di monitoraggio continuo e tracciamento, i professionisti sono spesso più interessati a identificare gli uccelli in registrazioni passive (“paesaggi sonori”), ottenute attraverso microfoni omnidirezionali. Si tratta di un problema ben documentato che recenti studi mostrano essere molto sfidante. Ispirati da questa applicazione realistica, studiamo SFDA in bioacustica utilizzando un classificatore di specie di uccelli preaddestrato su XC come modello di origine e diversi “paesaggi sonori” provenienti da diverse località geografiche: Sierra Nevada (S. Nevada); Powdermill Nature Reserve, Pennsylvania, USA; Hawai’i; Caples Watershed, California, USA; Sapsucker Woods, New York, USA (SSW); e Colombia, come i nostri domini di destinazione.
Questo passaggio dal dominio focalizzato a quello passivo è sostanziale: le registrazioni in quest’ultimo spesso presentano un rapporto segnale-rumore molto più basso, diversi uccelli che vocalizzano contemporaneamente e notevoli distrazioni e rumore ambientale, come pioggia o vento. Inoltre, i diversi paesaggi sonori provengono da diverse località geografiche, inducendo spostamenti estremi delle etichette poiché una piccolissima parte delle specie presenti in XC apparirà in una determinata località. Inoltre, come è comune nei dati del mondo reale, sia il dominio di origine che il dominio di destinazione sono significativamente sbilanciati per classe, poiché alcune specie sono significativamente più comuni di altre. Inoltre, consideriamo un problema di classificazione multi-etichetta poiché potrebbero essere identificati diversi uccelli all’interno di ogni registrazione, una significativa deviazione dallo scenario di classificazione di immagini a singola etichetta standard in cui SFDA viene tipicamente studiato.
![]() |
Illustrazione dello spostamento da “focale → paesaggi sonori”. Nel dominio focalizzato, le registrazioni sono tipicamente composte da una singola vocalizzazione di uccello in primo piano, catturata con un alto rapporto segnale-rumore (SNR), anche se potrebbero esserci altri uccelli che vocalizzano sullo sfondo. D’altra parte, i paesaggi sonori contengono registrazioni da microfoni omnidirezionali e possono essere composti da più uccelli che vocalizzano contemporaneamente, così come rumori ambientali di insetti, pioggia, auto, aerei, ecc. |
File audio | Dominio focale | Dominio dei paesaggi sonori1 | ||
Immagini dello spettrogramma | ![]() |
![]() |
Illustrazione dello spostamento della distribuzione dal dominio focale (sinistra) al dominio dei paesaggi sonori (destra), in termini dei file audio (alto) e delle immagini dello spettrogramma (basso) di una registrazione rappresentativa di ciascun dataset. Si noti che nel secondo frammento audio, il canto degli uccelli è molto debole, una caratteristica comune nelle registrazioni dei paesaggi sonori in cui le chiamate degli uccelli non sono in primo piano. Crediti: Sinistra: registrazione XC di Sue Riffe (licenza CC-BY-NC). Destra: Estratto da una registrazione resa disponibile da Kahl, Charif e Klinck. (2022) “Una collezione di registrazioni di paesaggi sonori completamente annotate del nord-est degli Stati Uniti” [link] dal dataset di paesaggi sonori SSW (licenza CC-BY). |
I modelli SFDA all’avanguardia hanno prestazioni scadenti negli spostamenti bioacustici
Come punto di partenza, confrontiamo sei metodi SFDA all’avanguardia sul nostro benchmark bioacustico e li confrontiamo con il modello di base non adattato (il modello di origine). I nostri risultati sono sorprendenti: senza eccezioni, i metodi esistenti non sono in grado di superare in modo coerente il modello di origine in tutti i domini di destinazione. In effetti, spesso lo superano significativamente.
A titolo di esempio, Tent, un metodo recente, mira a far sì che i modelli producano predizioni affidabili per ogni esempio riducendo l’incertezza delle probabilità di output del modello. Sebbene Tent funzioni bene in varie attività, non funziona in modo efficace per il nostro compito bioacustico. Nello scenario a singola etichetta, la minimizzazione dell’entropia costringe il modello a scegliere una singola classe per ogni esempio con fiducia. Tuttavia, nel nostro scenario a più etichette, non esiste tale vincolo che qualsiasi classe debba essere selezionata come presente. In combinazione con spostamenti significativi della distribuzione, ciò può causare il collasso del modello, portando a probabilità zero per tutte le classi. Altri metodi di benchmark come SHOT, AdaBN, Tent, NRC, DUST e Pseudo-Labelling, che sono basi solide per benchmark SFDA standard, hanno difficoltà anche con questo compito bioacustico.
![]() |
Evoluzione della media delle precisioni medie dei test (mAP), una metrica standard per la classificazione multietichetta, durante la procedura di adattamento sui sei dataset di paesaggi sonori. Confrontiamo la nostra proposta NOTELA e Dropout Student (vedi sotto), così come SHOT, AdaBN, Tent, NRC, DUST e Pseudo-Labelling. A parte NOTELA, tutti gli altri metodi non riescono a migliorare in modo coerente il modello di origine. |
Introduzione di NOisy student TEacher with Laplacian Adjustment (NOTELA)
Tuttavia, spicca un risultato sorprendentemente positivo: il principio del Noisy Student, meno celebrato, sembra promettente. Questo approccio non supervisionato incoraggia il modello a ricostruire le proprie predizioni su alcuni dataset di destinazione, ma applicando rumore casuale. Sebbene il rumore possa essere introdotto attraverso vari canali, cerchiamo la semplicità e utilizziamo il dropout del modello come unica fonte di rumore: ci riferiamo quindi a questo approccio come Dropout Student (DS). In poche parole, incoraggia il modello a limitare l’influenza dei singoli neuroni (o filtri) quando fa previsioni su un dataset di destinazione specifico.
DS, sebbene efficace, si scontra con un problema di collasso del modello su vari domini di destinazione. Ipotizziamo che ciò accada perché il modello di origine inizialmente manca di fiducia in quei domini di destinazione. Proponiamo di migliorare la stabilità di DS utilizzando lo spazio delle caratteristiche direttamente come una fonte ausiliaria di verità. NOTELA fa ciò incoraggiando pseudo-etichette simili per punti vicini nello spazio delle caratteristiche, ispirandosi al metodo di NRC e alla regolarizzazione di Laplace. Questo semplice approccio è visualizzato di seguito e migliora in modo coerente e significativo il modello di origine sia nel compito audio che in quello visivo.
![]() |
![]() |
NOTELA in azione. Le registrazioni audio vengono inviate attraverso il modello completo per ottenere un primo insieme di previsioni, che vengono poi affinate attraverso una regolarizzazione Laplaciana, una forma di post-processing basata sulla clusterizzazione di punti vicini. Infine, le previsioni affinate vengono utilizzate come obiettivi per il modello rumoroso per la ricostruzione. |
Conclusioni
Le tradizionali benchmark di classificazione di immagini artificiali hanno limitato involontariamente la nostra comprensione della vera generalizzabilità e robustezza dei metodi SFDA. Sosteniamo l’ampliamento dello scopo e l’adozione di un nuovo framework di valutazione che incorpori spostamenti di distribuzione naturalmente occorrenti dalla bioacustica. Speriamo anche che NOTELA serva come un solido punto di riferimento per agevolare la ricerca in quella direzione. La forte performance di NOTELA forse indica due fattori che possono portare allo sviluppo di modelli più generalizzabili: primo, lo sviluppo di metodi con un occhio verso problemi più difficili e secondo, la preferenza per principi di modellazione semplici. Tuttavia, c’è ancora del lavoro futuro da fare per individuare e comprendere le modalità di fallimento dei metodi esistenti su problemi più difficili. Crediamo che la nostra ricerca rappresenti un passo significativo in questa direzione, servendo come base per la progettazione di metodi SFDA con una maggiore generalizzabilità.
Ringraziamenti
Uno degli autori di questo post, Eleni Triantafillou, è ora presso Google DeepMind. Pubblichiamo questo post del blog a nome degli autori dell’articolo NOTELA: Malik Boudiaf, Tom Denton, Bart van Merriënboer, Vincent Dumoulin*, Eleni Triantafillou* (dove * indica un contributo uguale). Ringraziamo i nostri co-autori per il duro lavoro su questo articolo e il resto del team Perch per il loro supporto e feedback.
1Si noti che in questa clip audio, il canto degli uccelli è molto debole; una proprietà comune nelle registrazioni di paesaggi sonori in cui le chiamate degli uccelli non sono al “primo piano”. ↩︎