Ricercatori di Stanford propongono MAPTree un approccio bayesiano all’induzione degli alberi decisionali con maggiore robustezza e performance migliorate

Ricercatori di Stanford propongono MAPTree un approccio avanzato all'induzione degli alberi decisionali con robustezza e performance migliorate

Le alberi decisionali sono un popolare algoritmo di apprendimento automatico che può essere utilizzato sia per compiti di classificazione che di regressione. Operano dividendo ricorsivamente l’insieme di dati in sottoinsiemi in base alla proprietà più importante in ogni nodo. Una struttura ad albero illustra il processo decisionale, con ogni nodo interno che indica una scelta basata su un attributo, ogni ramo che rappresenta il risultato della scelta e ogni nodo foglia che rappresenta il risultato. Sono elogiati per la loro efficienza, adattabilità e interpretabilità.

In un lavoro intitolato “MAPTree: Superare gli alberi decisionali ‘ottimali’ utilizzando alberi decisionali bayesiani”, un team dell’Università di Stanford ha formulato l’algoritmo MAPTree. Questo metodo determina l’albero a posteriori massimo valutando professionalmente la distribuzione a posteriori di Bayesian Classification and Regression Trees (BCART) creati per un determinato insieme di dati. Lo studio mostra che MAPTree può migliorare con successo i modelli di albero decisionale oltre a quanto si pensasse in precedenza che fosse ottimale.

Le Bayesian Classification and Regression Trees (BCART) sono diventate un approccio avanzato, introducendo una distribuzione a posteriori sulle strutture degli alberi basata sui dati disponibili. Questo approccio, nella pratica, tende a essere migliore dei metodi avidi convenzionali producendo strutture di albero superiori. Tuttavia, soffre del difetto di avere tempi di mixing esponenzialmente lunghi e di rimanere spesso intrappolato in minimi locali.

I ricercatori hanno sviluppato una connessione formale tra le problematiche di ricerca AND/OR e l’inferenza a posteriori del Massimo A Posteriori delle Bayesian Classification and Regression Trees (BCART), illuminando la struttura fondamentale del problema. I ricercatori hanno sottolineato che la creazione di alberi decisionali individuali è il principale punto di interesse di questo studio. Si contesta l’idea di alberi decisionali ottimali, che interpreta la creazione di alberi decisionali come un problema di ottimizzazione globale mirato a massimizzare una funzione obiettivo complessiva.

Come metodo più sofisticato, la Bayesian Classification and Regression Trees (BCART) fornisce una distribuzione a posteriori delle architetture degli alberi basata sui dati disponibili. Questo metodo produce architetture di albero superiori rispetto ai metodi avidi tradizionali.

I ricercatori hanno anche sottolineato che MAPTree offre ai professionisti risultati più rapidi superando le strategie basate su campionamento precedenti in termini di efficienza computazionale. Gli alberi trovati da MAPTree si sono comportati meglio rispetto agli algoritmi più avanzati attualmente disponibili o si sono comportati in modo simile lasciando una minor impronta ambientale.

Hanno utilizzato una raccolta di 16 insiemi di dati dal dataset CP4IM per valutare l’accuratezza di generalizzazione, la verosimiglianza del log e la dimensione degli alberi dei modelli creati da MAPTree e dalle tecniche di base. Hanno scoperto che MAPTree supera le tecniche di base in termini di accuratezza dei test o verosimiglianza del log, o produce alberi di decisione notevolmente più snelli in situazioni di prestazioni simili.

In conclusione, MAPTree offre un’alternativa più rapida, efficace ed efficiente alle metodologie attuali, rappresentando un significativo avanzamento nella modellazione degli alberi decisionali. Il suo potenziale impatto sull’analisi dei dati e sull’apprendimento automatico non può essere sottolineato abbastanza, offrendo ai professionisti uno strumento potente per la creazione di alberi decisionali che eccellono in termini di prestazioni ed efficienza.