ChatGPT Si avventura nel mondo dei robot l’ultima meraviglia meccanica di Boston Dynamics ora risponde verbalmente.

ChatGPT si avventura nel mondo dei robot l'ultima meraviglia meccanica di Boston Dynamics che ora risponde verbalmente

In uno sviluppo rivoluzionario, l’azienda di ingegneria Boston Dynamics ha integrato ChatGPT, un sofisticato modello di linguaggio sviluppato da OpenAI, in uno dei suoi notevoli robot, Spot. Questo compagno simile a un cane è ora in grado di offrire visite guidate in un edificio, fornendo commenti illuminanti su ogni esposizione lungo il percorso.

Spot ha subito una trasformazione notevole, vantando ora una selezione di personalità distinte. A seconda della personalità scelta, la voce, il tono e le osservazioni personalizzate del robot si adattano di conseguenza.

Per percepire l’ambiente circostante, Spot utilizza modelli di Visual Question Answering (VQA), in grado di generare didascalie per le immagini e fornire risposte concise alle domande su di esse. Questi dati visivi vengono aggiornati approssimativamente una volta al secondo e vengono trasmessi al sistema come prompt di testo.

Le capacità di comunicazione di Spot sono state potenziate aggiungendo un supporto resistente alle vibrazioni appositamente progettato per un altoparlante Respeaker V2, un microfono a array ad anello adornato con LED. Questo hardware innovativo si integra perfettamente con il payload EAP 2 di Spot tramite USB.

Il controllo del robot è gestito da un computer esterno, un PC desktop o un laptop, che comunica con Spot tramite il suo Software Development Kit (SDK). È stato implementato un semplice servizio Spot SDK per facilitare la comunicazione audio con EAP 2.

Per quanto riguarda le risposte verbali, Spot si affida al servizio di text-to-speech ElevenLabs. Per ottimizzare il tempo di risposta, gli ingegneri hanno ideato un sistema in cui il testo viene trasmesso in streaming al tool in parallelo come “frasi” e l’audio risultante viene riprodotto in serie.

Aggiungendo un tocco di personalità, Spot mostra ora capacità di linguaggio del corpo. Può identificare e tracciare oggetti in movimento, consentendogli di individuare la posizione della persona più vicina e orientare il suo braccio verso di loro. Per creare un tocco da burattino, è stato applicato un filtro passa-basso alla voce generata, imitando il movimento della bocca di un pupazzo. Questo effetto viene ulteriormente accentuato adornando il gripper con costumi comici e attaccando degli occhi mobili.

Uno degli aspetti più intriganti di questo esperimento risiede nella logica intrinseca dell’IA, che ha richiesto minimi affinamenti. Quando gli viene chiesto dei suoi “genitori”, Spot naviga sorprendentemente fino al luogo in cui si trovano i suoi predecessori, dichiarandoli ironicamente i suoi “anziani”. Questo è una testimonianza dell’abilità del modello di stabilire associazioni statistiche tra concetti senza implicare coscienza.

È tuttavia importante notare che la dimostrazione ha delle limitazioni. Spot, come molti modelli di linguaggio, può occasionalmente sperimentare allucinazioni, generando informazioni immaginarie. Un esempio intrigante di questo fenomeno si trova in un articolo che discute di una città ispirata a Sims popolata da agenti AI. Inoltre, ci può essere un lieve ritardo nelle risposte, con i utenti che occasionalmente devono aspettare circa sei secondi.

Nonostante questi piccoli inconvenienti, questo progetto segna un significativo passo avanti nella ricerca all’incrocio tra robotica e intelligenza artificiale. Boston Dynamics è impegnata nell’esplorare ulteriormente questa fusione di tecnologie, con l’obiettivo finale di migliorare le prestazioni dei robot negli ambienti umani. Questa promettente impresa ha il potenziale per rivoluzionare il modo in cui interagiamo con le macchine, aprendo una nuova era di compagnia intelligente.