Come guardare le comuni attività di Machine Learning con occhi nuovi

Rethinking common Machine Learning activities

Non consiglieremmo mai di cambiare flussi di lavoro robusti e ben funzionanti solo per il gusto del cambiamento; “se non è rotto, non aggiustarlo” è un comune modo di dire popolare per una ragione: molto spesso è l’approccio corretto.

Tuttavia, c’è una differenza considerevole tra “molto spesso” e “sempre”, e i nostri giorni più frustranti al lavoro di solito si verificano quando i nostri metodi collaudati non producono i risultati attesi o hanno prestazioni scadenti. È qui che ampliare la nostra base di conoscenze paga davvero: invece di rimanere bloccati in un vortice mentale di morte, proviamo qualcosa di diverso, sperimentiamo con il nostro processo e (prima o poi) andiamo avanti con una nuova soluzione.

Nello spirito di abbracciare prospettive nuove, abbiamo preparato una serie di ottimi articoli recenti che offrono un punto di vista originale sui flussi di lavoro comuni dell’apprendimento automatico. Coprono procedure come il rilevamento delle fluttuazioni e l’addestramento del modello e compiti che vanno dalla segmentazione delle immagini al riconoscimento delle entità nominate. Fai spazio nel tuo kit di strumenti, vorrai aggiungerli!

Prima di iniziare, un aggiornamento veloce: se stai cercando altri modi per rimanere aggiornato con i nostri migliori articoli recenti oltre a Variable, abbiamo appena lanciato diverse liste di VoAGI per aiutarti a scoprire altre letture interessanti.

  • I sistemi di raccomandazione algoritmici sono ovunque, dai siti di e-commerce ai servizi di streaming, e i loro risultati possono talvolta sembrare ripetitivi e ovvi. Come mostra Christabelle Pabalan, non c’è motivo di accontentarsi di scelte banali – anzi, inserire nei sistemi di raccomandazione elementi di novità e serendipità può portare a una migliore fidelizzazione degli utenti.
  • Il rilevamento delle fluttuazioni nei modelli addestrati su dati non strutturati, come gli embedding utilizzati nelle app alimentate da LLM, “è un argomento piuttosto nuovo e non esistono metodi di ‘best practice'”, dicono Elena Samuylova e Olga Filippova. Per aiutarti a scegliere l’approccio più efficace, hanno condotto diversi esperimenti e condividono raccomandazioni chiare basate sui loro risultati.
  • Molti scienziati dei dati e professionisti dell’apprendimento automatico vedono la rapida crescita delle opzioni di dati sintetici per l’addestramento dei modelli come motivo di celebrazione, ma riconoscono che comporta seri problemi di qualità dei dati e di prestazioni a lungo termine. Vincent Vatter ci guida attraverso una recente ricerca di Microsoft che indica una via produttiva per il futuro.
  • La calibrazione del modello è un passaggio chiave in molti compiti di classificazione, ma calcolarla in modo ottimizzato per l’accuratezza può essere complicato. Maja Pavlovic è qui per aiutarti con un tutorial chiaro e pratico sulla gestione dell’errore di calibrazione atteso (ECE).
Foto di Bonnie Kittle su Unsplash
  • Se sei arrivato a un punto morto nel tuo recente progetto di segmentazione delle immagini utilizzando reti neurali convoluzionali, Dhruv Matani e Naresh offrono un’alternativa: prova un modello basato su Vision Transformer al suo posto.
  • Come scienziato dei dati presso l’NOS – la Fondazione Olandese per la Radiodiffusione Pubblica – Felix van Deelen ha accesso a un ricco corpus di notizie; il primo articolo di Felix su TDS esplora il potenziale di utilizzare questi dati testuali nei progetti di riconoscimento delle entità nominate.
  • Non esiste una soluzione universale per il rilevamento delle anomalie nei tuoi dati, il che rende una buona idea familiarizzare con alcune opzioni. Viyaleta Apgar ci introduce a una tecnica adatta ai principianti basata sulla distribuzione gaussiana e mostra come implementarla nel contesto di un modello multivariato.
  • Per ottimizzare in modo più efficace il tuo modello di regressione, Erdogan Taskesen propone di aggiungere un tocco di Bayes alla fase di accordatura degli iperparametri dell’addestramento del modello; il tutorial include una completa implementazione che si basa sulla potenza della libreria HGBoost.

Grazie per il supporto ai nostri autori! Se ti piacciono gli articoli che leggi su TDS, considera di diventare un membro di VoAGI: sblocca l’intero archivio (e ogni altro post su VoAGI, troppo).

Fino alla prossima Variable,

Gli editori di TDS