Questo articolo da NYU e Google spiega come gli encoder congiunti di discorso e testo superano la discrepanza della lunghezza della sequenza nelle rappresentazioni cross-modal.

Questo articolo spiega come gli encoder congiunti di discorso e testo superano la discrepanza della lunghezza della sequenza nelle rappresentazioni cross-modal.

È sempre più evidente che modelli molto grandi addestrati su corpora non supervisionati massicci in una singola modalità possono ottenere risultati notevoli. Ciò è stato dimostrato sia nel dominio audio, in cui un singolo modello è stato in grado di adattarsi a una vasta gamma di compiti acustici sorprendenti, sia nel dominio del testo, in cui i modelli linguistici hanno raggiunto capacità straordinarie di zero-shot. Simili risultati hanno indotto all’indagine su come impiegare tecniche simili per situazioni che combinano due modalità, che tradizionalmente si sono basate su dati accoppiati manualmente.

Un interessante approccio consiste nell’addestrare un grande codificatore su entrambe le modalità in modo che ognuna possa essere presentata come un esempio non accoppiato e il codificatore imparerà a mappare le due in luoghi simili nello spazio di rappresentazione. Un simile approccio, realizzabile e capace di prestazioni all’avanguardia su numerosi compiti di comprensione di immagini e testo utilizzando un singolo modello, è stato dimostrato essere fattibile nel dominio immagine/testo.

Nuove ricerche condotte dalla New York University e da Google indagano se i guadagni di prestazioni trovati con gli allineamenti espliciti possano essere ottenuti applicando la regolarizzazione della consistenza agli allineamenti impliciti appresi nei sistemi di upsampling. Ciò viene ottenuto sviluppando un metodo, motivato dal dynamic time warping, che allinea in modo ottimale la rappresentazione del codificatore di un esempio di voce e di testo. In assenza di un modello di allineamento esplicito, il team dimostra che l’allineamento ottimale non viene acquisito solo durante l’addestramento, ma migliora anche procedendo attraverso i livelli della rete.

Per agevolare il pretraining su dati di voce e testo non accoppiati, c’è stata una recente tendenza verso modelli con un codificatore congiunto di voce e testo nel campo del riconoscimento vocale. La sequenza più lunga utilizzata per rappresentare la voce offre una difficoltà unica per il riconoscimento vocale poiché coinvolge due modalità di sequenza. A causa di ciò, confrontare la rappresentazione della voce di un codificatore con la sua rappresentazione del testo frame per frame diventa un processo più difficile, anche se entrambe le modalità sono rappresentate nello stesso spazio di embedding.

Infine, il lavoro dimostra che, in un contesto monolingue e multilingue, si possono ottenere significativi miglioramenti del WER rispetto a baselines forti e semisupervisionate senza alcun modello di allineamento appreso modificando i criteri della regolarizzazione della consistenza per favorire la coerenza in qualche allineamento anziché un confronto diretto frame per frame. Sulla base dei loro risultati, sembra che tollerare il disallineamento sia tutto ciò che serve per garantire la coerenza nelle rappresentazioni cross-modalità.