I ricercatori utilizzano l’AI per identificare materiali simili in immagini.

Researchers use AI to identify similar materials in images.

Questo metodo di apprendimento automatico potrebbe aiutare con la comprensione della scena robotica, l’editing delle immagini o i sistemi di raccomandazione online.

A machine-learning model can identify all the pixels in an image that represent a given material. Developed at MIT, the technique could someday be used in computer vision systems that help robots interact with objects in the real world. Pictured is an artist’s interpretation of the new system.

Un robot che manipola oggetti, ad esempio in una cucina, beneficerebbe della comprensione di quali oggetti sono composti dagli stessi materiali. Con questa conoscenza, il robot saprebbe esercitare una quantità di forza simile che solleva una piccola porzione di burro da un angolo oscuro del piano di lavoro o un’intera confezione dal frigorifero ben illuminato.

L’identificazione degli oggetti in una scena che sono composti dallo stesso materiale, nota come selezione del materiale, è un problema particolarmente difficile per le macchine poiché l’aspetto di un materiale può variare drasticamente in base alla forma dell’oggetto o alle condizioni di illuminazione.

Gli scienziati del MIT e di Adobe Research hanno compiuto un passo avanti verso la soluzione di questa sfida. Hanno sviluppato una tecnica che può identificare tutti i pixel in un’immagine che rappresentano un determinato materiale, che viene mostrato in un pixel selezionato dall’utente.

Il metodo è accurato anche quando gli oggetti hanno forme e dimensioni diverse e il modello di apprendimento automatico che hanno sviluppato non viene ingannato dalle ombre o dalle condizioni di illuminazione che possono far apparire diverso lo stesso materiale.

Anche se hanno addestrato il loro modello utilizzando solo dati “sintetici”, creati da un computer che modifica le scene 3D per produrre molte immagini diverse, il sistema funziona efficacemente su scene reali interne ed esterne che non ha mai visto prima. L’approccio può anche essere utilizzato per i video; una volta che l’utente identifica un pixel nel primo fotogramma, il modello può identificare gli oggetti fatti dello stesso materiale in tutto il resto del video.

Oltre alle applicazioni nella comprensione della scena per la robotica, questo metodo potrebbe essere utilizzato per la modifica delle immagini o incorporato in sistemi informatici che deducono i parametri dei materiali nelle immagini. Potrebbe anche essere utilizzato per i sistemi di raccomandazione basati sui materiali. (Ad esempio, un acquirente sta cercando vestiti realizzati con un particolare tipo di tessuto.)

“Sapere con quale materiale si sta interagendo è spesso molto importante. Anche se due oggetti possono sembrare simili, possono avere diverse proprietà materiali. Il nostro metodo può facilitare la selezione di tutti gli altri pixel in un’immagine che sono fatti dello stesso materiale”, afferma Prafull Sharma, uno studente laureando in ingegneria elettrica e informatica e autore principale di un articolo su questa tecnica.

Gli autori di Sharma includono Julien Philip e Michael Gharbi, scienziati della ricerca presso Adobe Research; e gli autori senior William T. Freeman, il professore Thomas e Gerd Perkins di ingegneria elettrica e informatica e membro del Laboratorio di informatica e intelligenza artificiale (CSAIL); Frédo Durand, professore di ingegneria elettrica e informatica e membro di CSAIL; e Valentin Deschaintre, scienziato della ricerca presso Adobe Research. La ricerca verrà presentata alla conferenza SIGGRAPH 2023.

Un nuovo approccio

I metodi esistenti per la selezione del materiale faticano a identificare accuratamente tutti i pixel che rappresentano lo stesso materiale. Ad esempio, alcuni metodi si concentrano su interi oggetti, ma un oggetto può essere composto di più materiali, come una sedia con braccioli in legno e un sedile in pelle. Altri metodi possono utilizzare un insieme predeterminato di materiali, ma questi spesso hanno etichette ampie come “legno”, nonostante il fatto che ci siano migliaia di varietà di legno.

Invece, Sharma e i suoi collaboratori hanno sviluppato un approccio di apprendimento automatico che valuta dinamicamente tutti i pixel in un’immagine per determinare le somiglianze di materiale tra un pixel selezionato dall’utente e tutte le altre regioni dell’immagine. Se un’immagine contiene un tavolo e due sedie, e le gambe della sedia e il piano del tavolo sono fatti dello stesso tipo di legno, il loro modello potrebbe identificare accuratamente quelle regioni simili.

Prima che i ricercatori potessero sviluppare un metodo di intelligenza artificiale per imparare a selezionare materiali simili, dovevano superare alcune difficoltà. In primo luogo, nessun dataset esistente conteneva materiali marcati abbastanza finemente da addestrare il loro modello di apprendimento automatico. I ricercatori hanno creato il proprio dataset sintetico di scene interne, che includeva 50.000 immagini e più di 16.000 materiali applicati casualmente ad ogni oggetto.

“Volevamo un dataset in cui ogni singolo tipo di materiale fosse contrassegnato in modo indipendente”, dice Sharma.

Con il dataset sintetico a disposizione, hanno addestrato un modello di apprendimento automatico per il compito di identificare materiali simili in immagini reali, ma è fallito. I ricercatori si sono resi conto che la differenza di distribuzione era la causa. Questo si verifica quando un modello viene addestrato su dati sintetici, ma fallisce quando viene testato su dati del mondo reale che possono essere molto diversi dal set di addestramento.

Per risolvere questo problema, hanno costruito il loro modello su un modello di visione artificiale preaddestrato, che ha visto milioni di immagini reali. Hanno utilizzato la conoscenza precedente di quel modello sfruttando le caratteristiche visive che aveva già imparato.

“Nell’apprendimento automatico, quando si utilizza una rete neurale, di solito si apprende la rappresentazione e il processo di risoluzione del compito insieme. Noi abbiamo scisso questi elementi. Il modello preaddestrato ci fornisce la rappresentazione, quindi la nostra rete neurale si concentra solo sulla risoluzione del compito”, afferma.

Risoluzione della similarità

Il modello dei ricercatori trasforma le caratteristiche visive preaddestrate generiche in caratteristiche specifiche dei materiali, e lo fa in modo robusto rispetto alle forme degli oggetti o alle varie condizioni di illuminazione.

Il modello può quindi calcolare un punteggio di similarità dei materiali per ogni pixel dell’immagine. Quando un utente fa clic su un pixel, il modello stabilisce quanto sia simile in apparenza ogni altro pixel alla query. Produce una mappa in cui ogni pixel è classificato su una scala da 0 a 1 per la similarità.

“L’utente fa clic su un solo pixel e il modello selezionerà automaticamente tutte le regioni che hanno lo stesso materiale”, dice.

Dal momento che il modello produce un punteggio di similarità per ogni pixel, l’utente può affinare i risultati impostando una soglia, ad esempio il 90% di similarità, e ricevere una mappa dell’immagine con le regioni evidenziate. Il metodo funziona anche per la selezione tra immagini diverse: l’utente può selezionare un pixel in un’immagine e trovare lo stesso materiale in un’immagine separata.

Durante gli esperimenti, i ricercatori hanno scoperto che il loro modello poteva prevedere con maggiore accuratezza le regioni di un’immagine che contenevano lo stesso materiale rispetto ad altri metodi. Quando hanno misurato quanto bene la previsione corrispondeva alla verità fondamentale, cioè alle aree effettive dell’immagine che sono composte dallo stesso materiale, il loro modello si è abbinato a circa il 92% di accuratezza.

In futuro, vogliono migliorare il modello in modo che possa catturare meglio i dettagli fini degli oggetti in un’immagine, il che aumenterebbe l’accuratezza del loro approccio.

“I materiali ricchi contribuiscono alla funzionalità e alla bellezza del mondo in cui viviamo. Ma gli algoritmi di visione artificiale tendono tipicamente a trascurare i materiali, concentrando l’attenzione soprattutto sugli oggetti. Questo documento rappresenta un importante contributo nel riconoscimento dei materiali nelle immagini e nei video in una vasta gamma di condizioni difficili”, afferma Kavita Bala, decano del Cornell Bowers College di informatica e scienze dell’informazione e professore di informatica, che non ha partecipato a questo lavoro. “Questa tecnologia può essere molto utile sia per i consumatori finali che per i designer. Ad esempio, un proprietario di casa può immaginare come appariranno scelte costose come la rivestitura di un divano o il cambio del tappeto in una stanza e può essere più sicuro delle sue scelte di progettazione sulla base di queste visualizzazioni”.