Completamento di Point-Cloud con modelli di diffusione preaddestrati di testo-immagine

Point-Cloud completion with pre-trained text-image diffusion models

Hai mai sentito il termine nuvola di punti? È una rappresentazione fondamentale dei dati 3D, composta da punti in un sistema di coordinate tridimensionale che descrive la geometria e gli attributi spaziali di oggetti o ambienti. Sono ampiamente utilizzate nella visione artificiale, nella realtà virtuale e nella guida autonoma perché forniscono una rappresentazione ricca e dettagliata degli oggetti del mondo reale.

Le nuvole di punti vengono acquisite utilizzando sensori di profondità, come scanner LiDAR o telecamere di profondità. Gli scanner LiDAR emettono fasci laser e misurano il tempo impiegato dal fascio per rimbalzare dopo aver colpito un oggetto. Le telecamere di profondità utilizzano tecniche di luce strutturata o di tempo di volo per stimare la profondità di ogni pixel in un’immagine.

Anche se le nuvole di punti forniscono informazioni preziose sul mondo 3D, spesso presentano imperfezioni e incompletezze. Fattori come occlusioni, limitazioni dei sensori e rumore possono provocare punti di dati mancanti o rumorosi, rendendo difficile ottenere una rappresentazione completa e accurata della scena o degli oggetti catturati. Questa limitazione ostacola l’utilizzo efficace delle nuvole di punti per diverse applicazioni.

Per superare queste limitazioni e ottenere una comprensione completa del mondo tridimensionale, i ricercatori hanno studiato tecniche di completamento delle nuvole di punti.

Recenti progressi nell’apprendimento approfondito e nei modelli generativi hanno portato a significativi progressi nel completamento delle nuvole di punti. Addestrando i modelli su set di dati su larga scala di nuvole di punti complete, questi approcci possono imparare a inferire la geometria mancante basandosi su informazioni contestuali e modelli osservati nei dati di addestramento. Hanno dimostrato risultati impressionanti nel completamento di forme di oggetti complesse e dettagliate, anche in presenza di dati di input parziali o rumorosi.

Tuttavia, questi metodi faticano a completare nuvole di punti se non appartengono agli oggetti visti nel set di addestramento. Incontriamo quindi SDS-Complete, che affronta questo problema utilizzando modelli di diffusione.

SDS-Complete utilizza modelli di diffusione per completare nuvole di punti. Fonte: https://arxiv.org/pdf/2306.10533.pdf

SDS-Complete sfrutta un modello di diffusione testo-immagine pre-addestrato per guidare il completamento delle parti mancanti nelle nuvole di punti. Gli approcci tradizionali al completamento delle nuvole di punti si basano fortemente su set di dati su larga scala con una gamma limitata di classi di forme. Tuttavia, le situazioni del mondo reale richiedono il completamento di diverse classi di oggetti, il che rappresenta una sfida significativa nello sviluppo di modelli in grado di gestire tale varietà.

L’idea chiave dietro SDS-Complete è sfruttare la conoscenza preliminare contenuta nei modelli di diffusione testo-immagine pre-addestrati. Questi modelli sono stati addestrati su molti oggetti diversi, rendendoli una risorsa preziosa per completare le parti mancanti. Combinando le informazioni preliminari dal modello di diffusione con la nuvola di punti parziale osservata, SDS-Complete genera forme 3D accurate e realistiche che riflettono fedelmente le osservazioni parziali.

Panoramica dei componenti di SDS-Complete. Fonte: https://arxiv.org/pdf/2306.10533.pdf

Per ottenere questa combinazione, SDS-Complete utilizza la perdita SDS e una rappresentazione superficiale di funzione di distanza segnata (SDF). La perdita garantisce la coerenza con i punti di input, mentre la rappresentazione SDF consente di preservare il contenuto 3D esistente catturato da diversi sensori di profondità. Il metodo tiene conto dei vincoli di input di testo e nuvole di punti, consentendo il completamento delle superfici degli oggetti guidato sia dalle informazioni testuali che dai dati osservati.

la loro pagina Github. Si possono anche vedere ulteriori demo sulla loro pagina del progetto.