Ricercatori di Stanford svelano PLATO Un nuovo approccio all’IA per affrontare l’overfitting nel machine learning ad alta dimensione e basso campione con una regolarizzazione aggiornata tramite knowledge graph.

Ricercatori di Stanford rivelano PLATO Un nuovo approccio all'IA per contrastare l'overfitting nel machine learning ad alta dimensionalità e basso campione utilizzando una regolarizzazione aggiornata tramite knowledge graph.

Un grafo della conoscenza (KG) è un database basato su grafi che memorizza le informazioni sotto forma di nodi e archi. D’altra parte, un perceptron multistrato (MLP) è un tipo di rete neurale utilizzata nell’apprendimento automatico. Gli MLP sono composti da nodi interconnessi disposti su più strati. Ogni nodo riceve input dallo strato precedente e invia output allo strato successivo.

Ricercatori dell’Università di Stanford hanno introdotto un nuovo modello di apprendimento automatico chiamato PLATO, che sfrutta un KG per fornire informazioni di dominio ausiliarie. PLATO regolarizza un MLP introducendo un bias induttivo che assicura che i nodi simili nel KG abbiano vettori di peso equivalenti nel primo strato del MLP. Questo metodo affronta la sfida dei modelli di apprendimento automatico che necessitano di aiuto con dataset tabulari che presentano molte dimensioni rispetto ai campioni.

PLATO affronta uno scenario poco esplorato di dataset tabulari con caratteristiche ad alta dimensionalità e campioni limitati, a differenza dei metodi di deep learning tabulari esistenti progettati per contesti con più elementi rispetto alle caratteristiche. Si differenzia da altri modelli di deep tabular, come NODE e i transformer tabulari, e dagli approcci tradizionali come PCA e LASSO, introducendo un KG per la regolarizzazione. A differenza dei metodi di regolarizzazione del grafo, PLATO incorpora nodi caratteristica e non-caratteristica nel KG. Infonde pesi per un modello MLP, utilizzando il grafo come prior per le previsioni su un diverso dataset tabulare.

I modelli di apprendimento automatico eccellono spesso in ambienti ricchi di dati, ma necessitano di aiuto con dataset tabulari in cui il numero di caratteristiche supera di gran lunga il numero di campioni. Questa discrepanza è particolarmente presente nei dataset scientifici, limitando le prestazioni del modello. Gli approcci di deep learning tabulare esistenti si concentrano principalmente su scenari con più esempi rispetto alle caratteristiche, mentre i metodi statistici tradizionali dominano nel regime di dati limitati con più caratteristiche rispetto ai campioni. Affrontando questo problema, PLATO, un framework che utilizza un KG ausiliario per regolarizzare un MLP, consente il deep learning per dati tabulari con caratteristiche > campioni e ottiene prestazioni superiori su dataset con caratteristiche ad alta dimensionalità e modelli limitati.

Sfruttando un KG ausiliario, PLATO associa ogni caratteristica di input con un nodo KG e infonde vettori di peso per il primo strato di un MLP basato sulla similarità dei nodi. L’approccio utilizza più round di passaggio dei messaggi, raffinando le incapsulazioni delle caratteristiche. In uno studio di ablation, PLATO dimostra prestazioni consistenti con metodi di incapsulamento di nodi superficiali (TransE, DistMult, ComplEx) nel KG. Questo metodo innovativo offre potenziali miglioramenti per i modelli di deep learning in ambienti tabulari con pochi dati.

PLATO, un metodo per dati tabulari con caratteristiche ad alta dimensionalità e campioni limitati, supera 13 baselines all’avanguardia fino al 10.19% su sei dataset. La valutazione delle prestazioni coinvolge una ricerca casuale con 500 configurazioni per modello, riportando la media e la deviazione standard della correlazione di Pearson tra i valori previsti e quelli effettivi. I risultati confermano l’efficacia di PLATO, sfruttando un KG ausiliario per ottenere prestazioni robuste nel difficile regime di dati limitati. L’analisi comparativa su diverse baselines sottolinea la superiorità di PLATO, stabilendo la sua efficacia nel migliorare le previsioni del dataset tabulare.

In conclusione, la ricerca condotta può essere riassunta nei seguenti punti:

  • PLATO è un framework di deep learning per dati tabulari.
  • Ogni caratteristica di input assomiglia a un nodo in un KG ausiliario.
  • PLATO regolarizza un MLP e ottiene prestazioni robuste su dati tabulari con caratteristiche ad alta dimensionalità e campioni limitati.
  • Il framework infonde vettori di peso sulla base della similarità dei nodi KG, catturando il bias induttivo che caratteristiche di input simili dovrebbero condividere vettori di peso simili.
  • PLATO supera 13 baselines fino al 10.19% su sei dataset.
  • L’utilizzo di KG ausiliari migliora le prestazioni in regimi di dati limitati.