Ricercatori di Airbnb sviluppano Chronon un framework per lo sviluppo di funzionalità adatte alla produzione per modelli di apprendimento automatico.

Gli sviluppatori di Airbnb creano Chronon, un framework per l'apprendimento automatico.

Nel panorama in continua evoluzione del machine learning, la gestione delle caratteristiche si è rivelata un punto critico per gli ingegneri di ML presso Airbnb. Mentre si sforzano di creare modelli innovativi per vari prodotti, spesso si ritrovano a dedicare una quantità significativa di tempo ad affrontare complessità infrastrutturali anziché concentrarsi esclusivamente sui loro modelli. Airbnb ha riconosciuto la necessità di una soluzione che potesse ottimizzare la gestione dei dati delle caratteristiche, fornire aggiornamenti in tempo reale e garantire coerenza tra gli ambienti di formazione e produzione.

Entra in scena Chronon, una potente API progettata dal team di Airbnb per affrontare direttamente queste sfide. Chronon consente agli operatori di ML di definire le caratteristiche e centralizzare l’elaborazione dei dati per la formazione dei modelli e l’inferenza di produzione, garantendo precisione e coerenza durante tutto il processo.

Ingestione dei dati da diverse fonti

Chronon può acquisire dati da varie fonti, tra cui flussi di eventi, tabelle di fatti/dimensioni nel data warehouse, snapshot delle tabelle, flussi di dati modificati e altro ancora. Che si tratti di dati di eventi in tempo reale o di snapshot storici, Chronon gestisce tutto in modo fluido.

Trasformazione dei dati con flessibilità

Grazie alle trasformazioni simili al linguaggio SQL e alle aggregazioni basate sul tempo di Chronon, gli operatori di ML hanno la libertà di elaborare i dati con facilità. Che si tratti di aggregazioni standard o di tecniche di finestra sofisticate, l’API di Python di Chronon consente agli utenti di eseguire calcoli complessi garantendo al contempo piena flessibilità e componibilità.

Generazione dei risultati online e offline

Chronon si adatta sia alle esigenze di generazione dei dati online che offline. Chronon ti copre sia per i punti finali a bassa latenza che servono dati delle caratteristiche, sia per le tabelle Hive per i dati di formazione. Il parametro “Precisione” consente agli utenti di decidere la frequenza di aggiornamento, rendendolo adatto a una gamma di casi d’uso, dagli aggiornamenti in tempo reale ai refresh giornalieri.

Comprensione di precisione e fonti di dati

L’approccio unico di Chronon alla precisione consente agli utenti di esprimere la frequenza di aggiornamento desiderata per i dati derivati. Che si tratti di intervalli quasi in tempo reale o giornalieri, i modelli di precisione “Temporale” o “Snapshot” di Chronon garantiscono che i calcoli si allineino alle specifiche esigenze di ciascun caso d’uso.

Le fonti di dati sono componenti essenziali nell’ecosistema di Chronon. Supporta tre principali modelli di ingestione dei dati:

  • Fonti di dati degli eventi per attività con timestamp
  • Fonti di dati delle entità per metadati degli attributi relativi alle entità aziendali
  • Fonti di dati degli eventi cumulativi per tenere traccia delle modifiche storiche nelle dimensioni che cambiano lentamente

Contesti e tipi di calcolo

Chronon opera in due contesti distinti: online e offline. I calcoli online servono applicazioni a bassa latenza, mentre i calcoli offline vengono eseguiti sui set di dati del data warehouse tramite job batch. Tutte le definizioni di Chronon rientrano in tre categorie: GroupBy per l’aggregazione, Join per la combinazione di dati da varie elaborazioni GroupBy e StagingQuery per calcoli personalizzati di Spark SQL.

Comprensione delle aggregazioni per insight potenti

Le aggregazioni GroupBy di Chronon offrono varie estensioni alle funzionalità tradizionali di raggruppamento SQL. Gli utenti possono sfruttare le finestre per aggregazioni legate al tempo, l’aggregazione a secchi per una maggiore granularità e l’estrazione automatica per gestire dati nidificati all’interno di un array. Inoltre, le aggregazioni basate sul tempo offrono ancora più flessibilità per creare caratteristiche significative per i modelli di ML.

Un’integrazione senza soluzione di continuità per gli operatori di ML di Airbnb

Chronon si è rivelato una svolta per gli operatori di ML di Airbnb. Chronon consente agli utenti di generare migliaia di caratteristiche per alimentare i modelli di ML senza sforzo, semplificando l’ingegneria delle caratteristiche. Questa soluzione rivoluzionaria ha liberato gli ingegneri di ML dall’onere dell’implementazione manuale del flusso di lavoro, consentendo loro di concentrarsi sulla creazione di modelli innovativi che soddisfano i comportamenti e le esigenze in continua evoluzione degli utenti.

In conclusione, Chronon è diventato uno strumento indispensabile nell’arsenale di machine learning di Airbnb. Fornendo una soluzione completa per la gestione delle caratteristiche, ha migliorato la produttività e la scalabilità dell’ingegneria delle caratteristiche, consentendo agli operatori di ML di fornire modelli all’avanguardia e migliorare l’esperienza di Airbnb per milioni di utenti.