Ricercatori dell’Università di Columbia e Deepmind presentano GPAT un’architettura di modello basata su Transformer che predice accuratamente le pose delle parti inferendo come ogni forma delle parti corrisponde alla forma target.

I ricercatori dell'Università di Columbia e DeepMind presentano GPAT, un modello basato su Transformer che predice accuratamente le pose delle parti corrispondendo alla forma target.

I sistemi robotici autonomi capaci di assemblare nuovi oggetti attraverso il ragionamento visuospatiale hanno un grande potenziale per una vasta gamma di applicazioni reali. Nonostante i notevoli progressi nell’assemblaggio delle parti, gli approcci esistenti rimangono limitati a obiettivi predefiniti o categorie familiari. Per affrontare questa limitazione, un team di ricerca congiunto dell’Università di Columbia e di Google DeepMind introduce il General Part Assembly Transformer (GPAT) nel loro rivoluzionario articolo dal titolo “General Part Assembly Planning”. GPAT è un modello basato su trasformatori per la pianificazione dell’assemblaggio che presenta una forte capacità di generalizzazione, permettendogli di stimare automaticamente una vasta varietà di forme e parti di destinazione innovative.

Principali contributi di GPAT

1. Task di assemblaggio generale delle parti:

Il team propone il task di assemblaggio generale delle parti per valutare la capacità dei sistemi autonomi di costruire obiettivi innovativi utilizzando parti non viste in precedenza. Ampliando la portata oltre gli obiettivi predefiniti, GPAT mira a rivoluzionare l’assemblaggio delle parti in modo flessibile e adattativo.

2. Riorganizzazione della forma condizionata dall’obiettivo:

Per affrontare il problema della pianificazione associato all’assemblaggio generale delle parti, GPAT tratta l’assemblaggio delle parti come un compito di riorganizzazione della forma condizionata dall’obiettivo. Affronta il problema come un compito di segmentazione degli oggetti di destinazione con “vocabolario aperto”, che consente al modello di gestire forme e configurazioni di parti diverse.

3. Introduzione del General Part Assembly Transformer (GPAT):

GPAT funge da modello basato su trasformatori progettato appositamente per la pianificazione dell’assemblaggio. GPAT impara a generalizzare a vari obiettivi e forme di parti attraverso il suo processo di formazione. L’obiettivo principale del modello è prevedere una posa di 6 gradi di libertà (6-DoF) per ogni parte di input, formando infine un assemblaggio finale delle parti.

Approccio

1. Segmentazione dell’obiettivo:

Il primo passo di GPAT coinvolge la segmentazione dell’obiettivo, che utilizza il General Part Assembly Transformer. Questo processo scompone l’obiettivo in segmenti disgiunti, ognuno dei quali rappresenta dettagli fini di una parte trasformata. GPAT acquisisce una comprensione più approfondita delle sue parti costituenti e delle relazioni spaziali mediante la segmentazione del cloud di punti dell’obiettivo.

2. Stima della posa:

Il secondo passo dell’approccio di GPAT è la stima della posa. Qui, il modello prende insieme le parti e le segmentazioni dell’obiettivo come input per determinare le posizioni finali delle parti di 6 gradi di libertà per ciascuna parte. GPAT allinea in modo preciso le parti attraverso la stima della posa, consentendo un assemblaggio preciso ed accurato delle parti.

La introduzione di GPAT comporta significative implicazioni per i sistemi robotici autonomi. Sfruttando il ragionamento visuospatiale e la sua capacità di generalizzare a forme nuove e diverse, GPAT offre grandi promesse in varie applicazioni del mondo reale. Settori come la produzione, la costruzione e la logistica potrebbero beneficiare enormemente delle capacità di GPAT, poiché consente ai sistemi autonomi di assemblare oggetti con parti non viste in modo efficiente e accurato.

Inoltre, il lavoro del team di ricerca pone solide basi per futuri progressi nella pianificazione dell’assemblaggio autonomo. Continuando a perfezionare e migliorare le prestazioni di GPAT, i ricercatori possono sbloccare un enorme potenziale per i sistemi autonomi nel navigare compiti di assemblaggio complessi e dinamici. La capacità di generalizzazione di GPAT apre le porte allo sviluppo di robot in grado di adattarsi e apprendere in tempo reale, favorendo una nuova era di automazione flessibile ed intelligente.