Ottimizza efficacemente il tuo modello di regressione con l’ottimizzazione iperparametrica bayesiana

Ottimizza il tuo modello di regressione con l'ottimizzazione bayesiana

Impara ad ottimizzare efficacemente gli iperparametri e a prevenire la creazione di modelli sovra-addestrati per XGBoost, CatBoost e LightBoost

Foto di Alexey Ruban su Unsplash

Le tecniche di boosting dei gradienti come XGBoost, CatBoost e LightBoost hanno guadagnato molta popolarità negli ultimi anni sia per compiti di classificazione che di regressione. Una parte importante del processo è l’ottimizzazione degli iperparametri per ottenere le migliori prestazioni del modello. La chiave è ottimizzare lo spazio di ricerca degli iperparametri insieme alla ricerca di un modello che possa generalizzare su nuovi dati non visti in precedenza. In questo blog, dimostrerò 1. come imparare un modello di albero di decisione potenziato per la regressione con iperparametri ottimizzati utilizzando l’ottimizzazione bayesiana, 2. come selezionare un modello che possa generalizzare (e non sia sovra-addestrato), 3. come interpretare e spiegare visivamente lo spazio degli iperparametri ottimizzati insieme all’accuratezza delle prestazioni del modello. La libreria HGBoost è ideale per questa attività che esegue, tra le altre cose, una cross-validazione a doppio loop per proteggersi dal sovra-addestramento.

Una breve introduzione.

Gli algoritmi di boosting dei gradienti come Extreme Gradient Boosting (XGBoost), Light Gradient Boosting (Lightboost) e CatBoost sono potenti algoritmi di machine learning di insieme per la modellazione predittiva (compiti di classificazione e regressione) che possono essere applicati a set di dati nella forma di dati tabulari, continui e misti [1, 2, 3]. Qui mi concentrerò sul compito di regressione. Nelle sezioni seguenti, addestreremo un modello di albero di decisione potenziato utilizzando un ciclo di cross-validazione a doppio loop. Divideremo attentamente il set di dati, impostiamo lo spazio di ricerca e eseguiamo l’ottimizzazione bayesiana utilizzando la libreria Hyperopt. Dopo l’addestramento del modello, possiamo interpretare i risultati in modo più approfondito creando grafici informativi.

Se hai bisogno di maggiori informazioni di base o non sei completamente familiare con questi concetti, ti consiglio di leggere questo blog:

Una guida per trovare il miglior modello di boosting utilizzando la messa a punto bayesiana degli iperparametri ma senza…

Gli algoritmi di alberi di decisione potenziati possono avere prestazioni superiori ad altri modelli ma l’overfitting è un vero pericolo. Addestra il tuo modello utilizzando…

towardsdatascience.com