Questa ricerca AI proveniente dalla Cina fornisce una valutazione esaustiva del modello di linguaggio visivo SOTA più recente, GPT-4V(ision), e la sua applicazione in scenari di guida autonoma.

Questa ricerca AI dalla Cina una panoramica completa sulle potenzialità del modello di linguaggio visivo GPT-4V(ision) e la sua applicazione nella guida autonoma.

Un team di ricercatori del Laboratorio di Intelligenza Artificiale di Shanghai, GigaAI, dell’Università Normale dell’Est della Cina, dell’Università Cinese di Hong Kong e di WeRide.ai valuta l’applicabilità di GPT-4V (Vision), un Modello di Linguaggio Visivo, in scenari di guida autonoma. GPT-4V dimostra una performance superiore nella comprensione delle scene e nel ragionamento causale, mostrando un potenziale nell’affrontare diversi scenari e riconoscere le intenzioni. Sono ancora presenti sfide nella discernimento della direzione e nel riconoscimento del semaforo, sottolineando la necessità di ulteriori ricerche e sviluppi. Lo studio rivela le promettenti capacità di GPT-4V in contesti di guida reale, identificando al contempo aree specifiche da migliorare.

La ricerca valuta GPT-4V (Vision) in contesti di guida autonoma, esaminando la comprensione delle scene, le capacità decisionali e di guida. Test completi dimostrano la performance superiore di GPT-4V nella comprensione delle scene e nel ragionamento causale rispetto ai sistemi esistenti. Nonostante le sue capacità, persistono sfide in task come il discernimento della direzione e il riconoscimento del semaforo, sollecitando ulteriori ricerche e sviluppi per migliorare le capacità di guida autonoma. I risultati sottolineano il potenziale di GPT-4V enfatizzando la necessità di affrontare specifiche limitazioni attraverso un continuo esplorazione e sforzi di miglioramento.

Gli approcci tradizionali ai veicoli autonomi devono confrontarsi con sfide nell’interpretazione accurata degli oggetti e nella comprensione delle intenzioni degli altri partecipanti al traffico. I LLM (Linguaggio e Modelli Linguistici) mostrano promesse nel risolvere questi problemi, ma la loro applicazione alla guida autonoma è limitata dalla loro incapacità di elaborare dati visivi. L’emergere di GPT-4V presenta un’opportunità per migliorare la comprensione delle scene e il ragionamento causale nella guida autonoma. Lo studio mira a valutare in modo esaustivo le capacità di GPT-4V nel riconoscere diverse condizioni e prendere decisioni in situazioni di guida reale, fornendo basi per future ricerche sulla guida autonoma.

L’approccio fornisce una valutazione esaustiva di GPT-4V (Vision) nel contesto degli scenari di guida autonoma. I test completi valutano le capacità di GPT-4V nella comprensione delle scene di guida e nel prendere decisioni, agendo come autisti. I task includono il riconoscimento basico delle scene, il ragionamento causale complesso e la presa di decisioni in tempo reale in diverse condizioni. La valutazione utilizza una selezione curata di immagini e video da dataset open-source, la simulazione di CARLA e l’uso di internet.

GPT-4V offre una performance migliore nella comprensione delle scene e nel ragionamento causale rispetto ai sistemi autonomi attuali, dimostrando il suo potenziale nell’affrontare scenari al di fuori della distribuzione, nel riconoscere le intenzioni e nel prendere decisioni informate in contesti di guida reale. Nonostante queste capacità, persistono sfide nel discernimento della direzione, nel riconoscimento del semaforo, nell’interpretazione delle informazioni visive e nel ragionamento spaziale. La valutazione suggerisce che le capacità di GPT-4V superino quelle dei sistemi esistenti, fornendo basi per future ricerche sulla guida autonoma. 

Lo studio valuta in modo approfondito GPT-4V (Vision) in scenari di guida autonoma, rivelando la sua performance superiore nella comprensione delle scene e nel ragionamento causale rispetto ai sistemi esistenti. GPT-4V dimostra un potenziale nell’affrontare procedure al di fuori della distribuzione, nel riconoscere le intenzioni e nel prendere decisioni informate in contesti di guida reale. Nonostante queste capacità, persistono sfide nel discernimento della direzione, nel riconoscimento del semaforo, nell’interpretazione delle informazioni visive e nel ragionamento spaziale. 

La ricerca riconosce la necessità di ulteriori ricerche e sviluppi, in particolare per affrontare le sfide legate al discernimento della direzione, al riconoscimento del semaforo, all’interpretazione delle informazioni visive e al ragionamento spaziale. Si evidenzia che la versione più recente di GPT-4V potrebbe produrre risposte diverse rispetto ai risultati dei test presentati nello studio attuale.