Verso l’AI sostenibile come rendere i modelli di Deep Learning più efficienti in produzione

AI sostenibile ottimizzare i modelli di Deep Learning in produzione

The Kaggle Blueprints

Dall’Accademia all’Industria: Trovare il miglior compromesso tra prestazioni predittive e tempo di inferenza per la sostenibilità nelle pratiche di Apprendimento Automatico

Making s’mEARTHs at the GPU bonfire (Image hand-drawn by the author)

Questo articolo è stato originariamente pubblicato su Kaggle come partecipazione al concorso “2023 Kaggle AI Report” il 5 luglio 2023, in cui ha vinto il primo posto nella categoria “Competizioni Kaggle”. Essendo una recensione delle relazioni delle competizioni Kaggle, è una edizione speciale della serie “The Kaggle Blueprints”.

Introduzione

“Penso che siamo alla fine dell’era in cui ci saranno questi modelli giganti, giganti. […] Li miglioreremo in altri modi”, ha detto Sam Altman, CEO di OpenAI, poco dopo il rilascio di GPT-4. Questa affermazione ha sorpreso molti, dato che si stima che GPT-4 sia dieci volte più grande (1,76 trilioni di parametri) rispetto al suo predecessore, GPT-3 (175 miliardi di parametri).

“Penso che siamo alla fine dell’era in cui ci saranno questi modelli giganti, giganti. […] Li miglioreremo in altri modi.” — Sam Altman

Nel 2019, Strubell et al. [1] hanno stimato che addestrare una pipeline di elaborazione del linguaggio naturale (NLP), includendo l’ottimizzazione e l’esperimento, produce circa 35 tonnellate di diossido di carbonio equivalente, più del doppio del consumo annuale medio di un cittadino statunitense.

Mettiamolo in prospettiva: Si è riportato che le tecnologie dell’informazione hanno prodotto il 3,7% delle emissioni globali di CO2 nel 2019. Questo è più delle emissioni dell’aviazione globale (1,9%) e delle spedizioni (1,7%) combinate!

I modelli di Deep Learning hanno portato a miglioramenti di prestazioni all’avanguardia in diversi settori. Questi guadagni di prestazioni sono spesso il risultato di modelli più grandi. Ma la creazione di modelli più grandi richiede più calcoli sia nella fase di addestramento che nella fase di inferenza. E più calcoli richiedono hardware più grande e più energia e quindi emettono più CO2 e comportano una maggiore impronta di carbonio, il che è dannoso per l’ambiente.