Dal Testo al Tangibile 3D-LLM Libera i Modelli Linguistici nel Mondo 3D

From Text to Tangible 3D-LLM Sets Linguistic Models Free in the 3D World

Una panoramica del primo 3D-LLM

Originariamente pubblicato su louisbouchard.ai, letto 2 giorni prima sul mio blog!

Guarda il video

Abbiamo visto grandi modelli di linguaggio, li abbiamo visti lavorare con testo, con codice, con immagini, ma una cosa che mancano è lavorare nel nostro mondo. Quello che intendo è essere in grado di comprendere il nostro mondo come lo vediamo e non solo attraverso testo e immagini, che sono solo due modi specifici in cui possiamo descrivere il nostro mondo. Bene, oggi facciamo un grande passo avanti con il 3D-LLM.

Esempio di risultato del 3D-LLM. Immagine tratta dal paper.

Il 3D-LLM è un nuovo modello con cui puoi interagire che è in grado di comprendere il nostro mondo. Beh, almeno in parte visto che è in grado di comprendere solo le 3 dimensioni e il testo, che non è tutto, ma comunque una parte molto importante di ciò che viviamo nella nostra vita. Come puoi vedere negli esempi sopra e sotto, puoi fargli qualsiasi domanda relativa all’ambiente e lui risponderà con un ragionamento di buon senso molto valido come fanno i soliti LLM. Ovviamente, non è perfetto, ma come sai da ChatGPT, è impressionante. Non vedrà solo il mondo e risponderà alle domande, ma potrai anche interagire con il mondo che vede o chiedergli di trovare la strada per una stanza o un oggetto specifico. Puoi chiedere informazioni su oggetti specifici, indicare cose, ecc. È, per quanto ne so, il primo LLM che interagisce veramente con il mondo in cui viviamo, il che è abbastanza figo.

Esempio di risultato del 3D-LLM. Immagine tratta dal paper.

Come puoi vedere, il mondo che vede è piuttosto brutto. Questo perché il modello è in grado di comprendere solo nuvole di punti e il linguaggio. Le nuvole di punti sono collezioni di punti di dati 3D che rappresentano le coordinate spaziali di oggetti o ambienti. Nell’intelligenza artificiale per le scene 3D, le nuvole di punti vengono utilizzate come rappresentazione efficiente dei dati. Vengono molto utilizzate nella guida autonoma, nella robotica o nella realtà aumentata, dove consentono ai modelli di intelligenza artificiale di percepire e interagire con…