Incontra KITE un framework di intelligenza artificiale per la manipolazione semantica utilizzando punti chiave come rappresentazione per l’ancoraggio visivo e l’inferenza precisa delle azioni.

Incontra KITE, un framework di intelligenza artificiale per la manipolazione semantica che utilizza punti chiave come rappresentazione visiva e per l'inferenza precisa delle azioni.

Con l’avanzamento crescente nel campo dell’Intelligenza Artificiale, la tecnologia dell’IA sta iniziando a combinarsi con la robotica. Dalla Visione Artificiale all’Elaborazione del Linguaggio Naturale fino al calcolo Edge, l’IA si sta integrando con la robotica per sviluppare soluzioni significative ed efficaci. I robot con IA sono macchine che agiscono nel mondo reale. È importante considerare la possibilità del linguaggio come mezzo di comunicazione tra le persone e i robot. Tuttavia, due problemi principali impediscono ai robot moderni di gestire efficientemente gli input di linguaggio libero. La prima sfida consiste nel consentire a un robot di ragionare su ciò che deve manipolare in base alle istruzioni fornite. Un altro problema riguarda le attività di prendere e mettere in cui è necessaria una discriminazione attenta quando si prendono oggetti come animali di peluche per le orecchie anziché per le gambe o bottiglie di sapone per i distributori anziché per i lati.

I robot devono estrarre la semantica della scena e degli oggetti dalle istruzioni di input e pianificare azioni accuratamente a basso livello per eseguire una manipolazione semantica. Per superare queste sfide, i ricercatori dell’Università di Stanford hanno introdotto KITE (Keypoints + Instructions to Execution), un framework a due fasi per la manipolazione semantica. Sia la semantica della scena che la semantica dell’oggetto sono prese in considerazione in KITE. Mentre la semantica dell’oggetto localizza precisamente varie porzioni all’interno di un’istanza dell’oggetto, la semantica della scena riguarda la discriminazione tra vari oggetti in una scena visiva.

La prima fase di KITE consiste nell’utilizzare i punti chiave delle immagini 2D per ancorare un’istruzione di input in un contesto visivo. Per l’inferenza delle azioni successive, questa procedura offre un bias molto preciso centrato sull’oggetto. Il robot sviluppa una comprensione precisa degli oggetti e delle loro caratteristiche pertinenti mappando il comando ai punti chiave della scena. Il secondo passo di KITE prevede l’esecuzione di una competenza condizionata ai punti chiave appresa sull’osservazione della scena RGB-D. Il robot utilizza queste competenze parametriche per eseguire l’istruzione fornita. I punti chiave e le competenze parametriche lavorano insieme per fornire una manipolazione dettagliata e una generalizzazione delle differenze tra scene e oggetti.

Per la valutazione, il team ha valutato le prestazioni di KITE in tre ambienti reali: la preparazione del caffè ad alta precisione, la presa semantica e la manipolazione su tavolo a lungo termine 6DoF. KITE ha completato il compito di preparare il caffè con un tasso di successo del 71%, un tasso di successo del 70% per la presa semantica e un tasso di successo del 75% per il seguire le istruzioni nello scenario di manipolazione su tavolo. KITE ha superato i framework che utilizzano l’ancoraggio basato su punti chiave rispetto ai modelli di linguaggio visivo preaddestrati. Ha ottenuto migliori risultati rispetto ai framework che enfatizzano il controllo visuomotorio end-to-end rispetto all’uso delle competenze.

KITE ha ottenuto questi risultati nonostante abbia avuto le stesse o meno dimostrazioni durante la formazione, dimostrando la sua efficacia ed efficienza. Per mappare un’immagine e una frase del linguaggio su una mappa di calore di salienza e produrre un punto chiave, KITE utilizza una tecnica in stile CLIPort. Al fine di produrre punti di competenza, l’architettura abile modifica PointNet++ per accettare una nuvola di punti multivista annotata con un punto chiave. I punti chiave 2D consentono a KITE di prestare attenzione in modo preciso alle caratteristiche visive, mentre le nuvole di punti 3D forniscono il contesto 6DoF necessario per la pianificazione.

In conclusione, il framework KITE presenta una soluzione promettente alla sfida di lunga data di consentire ai robot di interpretare e seguire comandi di linguaggio naturale nel contesto della manipolazione. Raggiunge una manipolazione semantica dettagliata con alta precisione e generalizzazione utilizzando il potere dei punti chiave e dell’ancoraggio delle istruzioni.