Come la piattaforma di VAST Data sta rimuovendo le barriere all’innovazione dell’IA

Come VAST Data rimuove barriere all'innovazione dell'IA

Recentemente ho avuto l’opportunità di parlare con Renen Hallak, fondatore e CEO di VAST Data, riguardo alla loro nuova piattaforma dati unificata per l’AI. VAST ha fatto scalpore nel 2019 con il lancio di VAST DataStore, un sistema di storage all-flash altamente performante e scalabile. Tuttavia, come ho appreso da Renen, lo storage era solo l’atto di apertura nella visione più ampia di VAST di diventare una piattaforma dati per l’AI.

Con l’entusiasmo e gli investimenti intorno all’AI che raggiungono livelli astronomici, le richieste sull’infrastruttura sono maggiori che mai. VAST mira a eliminare i compromessi comuni legati alle prestazioni, alla scalabilità, alla geografia e alla facilità d’uso per sbloccare il potenziale dell’AI. Il 1° agosto, VAST ha presentato la sua piattaforma dati ampliata, che comprende un nuovo database e capacità di calcolo insieme al suo prodotto principale, VAST DataStore.

Il percorso dei dati VAST è iniziato con un’architettura rivoluzionaria

Il percorso di VAST è iniziato nel 2016 con la creazione di un’architettura innovativa chiamata Disaggregated Shared Everything (DASE). Secondo Renen, l’obiettivo di VAST fin dall’inizio era fornire agli algoritmi di AI un accesso illimitato a più dati in modo più rapido.

DASE ripensa completamente il design dei data center separando lo storage e il calcolo in pool di risorse indipendenti che possono scalare in parallelo. Questo elimina i collo di bottiglia come la coerenza della cache e la gestione dei metadati che limitano le architetture di scalabilità orizzontale. VAST ha anche sviluppato nuove strutture e protocolli dati condivisi che consentono un accesso ai dati coerente ed efficiente nell’ambiente disaggregato.

Come risultato, DASE offre prestazioni precedentemente irraggiungibili su larga scala. Permette ai carichi di lavoro di AI di analizzare rapidamente immensi dataset in modi non possibili con un’infrastruttura tradizionale. Unendo più dati, un accesso più rapido e una connettività diretta alle fonti di dati analogiche e digitali, VAST ritiene che DASE sbloccherà nuove scoperte di algoritmi.

VAST DataStore: repository di dati non strutturati ad alta velocità

Basato su DASE, il prodotto principale di VAST è VAST DataStore, lanciato nel 2019. VAST DataStore condensa le capacità di SAN e NAS in un sistema all-flash unificato specializzato per i dati non strutturati.

Sfruttando il parallelismo di DASE, VAST DataStore offre in modo economico storage per file, oggetti e HPC utilizzando solo memoria flash. Non c’è bisogno di un livello di prestazioni flash separato con una capacità di gestione dei dischi più lenta sullo sfondo. Tutti i dati godono di un accesso rapido e casuale.

VAST DataStore gestisce efficientemente dati non strutturati su scala exabyte attraverso interfacce standard come NFS, SMB e S3. Dietro le quinte, DASE memorizza i dati in piccoli elementi accessibili in parallelo da risorse di calcolo. Funzionalità come deduplica, compressione, snapshot e QoS vengono implementate in tempo reale tramite il buffer di scrittura persistente di DASE.

Nuovo VAST DataBase e VAST DataEngine espandono le capacità

Basandosi sul successo di VAST DataStore, VAST Data ha recentemente annunciato la loro piattaforma ampliata, introducendo VAST DataBase e VAST DataEngine. Insieme a VAST DataStore, questi formano un ambiente unificato per l’AI centrato sui dati che comprende l’ingestione, lo storage, l’elaborazione e le interrogazioni.

VAST DataBase sfrutta DASE per fornire un database hyperscale sia per carichi di lavoro transazionali che analitici. Utilizzando un formato colonnare innovativo, VAST DataBase riduce le dimensioni dei dati per prestazioni di interrogazione ultraveloci su larga scala. DASE consente inserimenti OLTP simultanei e interrogazioni OLAP senza compromessi. Il database funge anche da catalogo dei metadati per i dati non strutturati in VAST DataStore.

VAST DataEngine consente di elaborare carichi di lavoro sui dati direttamente all’interno della struttura dati globale. Può ottimizzare il posizionamento delle attività in base a fattori come la località dei dati e il costo. Gli sviluppatori possono creare cicli di calcolo ricorsivi innescati da eventi dati ovunque nella struttura. Questo paradigma di elaborazione continua potenzia i flussi di lavoro di AI basati sui dati.

VAST DataSpace: una struttura dati illimitata che alimenta l’innovazione dell’AI

Tutto viene collegato da VAST DataSpace, un namespace globale che unisce i silos di dati in diverse località, tra cui on-premises, cloud e edge. Questa accessibilità dei dati rivoluzionaria consente alle app di utilizzare i dati senza una proprietà centralizzata. Invece di spostare i dati per il calcolo, il calcolo viene fatto sui dati per un’efficienza ottimale.

Grazie a una struttura dati unificata che rimuove le limitazioni tradizionali, emergono nuovi casi d’uso entusiasmanti per l’AI. Il cliente di VAST, Pixar, ha rivoluzionato la produzione di film animati attraverso dataset condivisi a livello globale. Il gigante dei viaggi online Agoda utilizza VAST per alimentare l’intero pipeline di big data e machine learning.

Eliminando i compromessi nell’accesso ai dati, VAST Data sta aprendo la strada alla prossima evoluzione dell’infrastruttura AI. Le barriere legate a prestazioni, scala, geografia e facilità d’uso stanno crollando, consentendo alle imprese di concentrarsi sull’innovazione anziché sull’infrastruttura. VAST Data sta aprendo una nuova era in cui le idee, non i vincoli tecnologici, determinano i confini dell’innovazione AI.

Le Possibilità con la Piattaforma Unificata Vast Data

Le capacità abilitate dalla piattaforma unificata di VAST Data sono diverse, spaziando dall’analisi in tempo reale, all’addestramento di modelli, alle applicazioni di database e altro ancora. Esploriamo alcuni casi d’uso:

Analisi in Tempo Reale

Per l’analisi in tempo reale, VAST DataStore offre un accesso ultraveloce a grandi quantità di dati non strutturati. VAST DataBase facilita le query analitiche ad hoc su miliardi di righe di dati strutturati. Unendo tutto ciò in VAST DataSpace è possibile effettuare rapidamente analisi che correlano flussi di dati non strutturati e strutturati.

Addestramento Continuo dei Modelli

VAST DataEngine consente flussi di lavoro di addestramento continuo dei modelli. Quando nuovi dati non strutturati arrivano in VAST DataStore, gli eventi attivano lavori di addestramento dei modelli da eseguire in VAST DataSpace utilizzando i dati più recenti. I risultati vengono scritti per un accesso immediato all’inferenza.

Cloudbursting

Per scalare le carichi di lavoro di analisi o addestramento, VAST DataSpace può espandersi nella cloud pubblica mantenendo un namespace globale unificato. Ciò consente di sfruttare le risorse cloud per una capacità extra senza migrazione dei dati.

Database Hyperscale

Il supporto simultaneo di VAST DataBase per OLTP e OLAP a una scala estrema fornisce una base ideale per applicazioni transazionali su larga scala che richiedono anche informazioni analitiche.

Data Lakes

Per le esigenze dei data lake, VAST DataStore offre un repository centralizzato per tutti i dati aziendali. VAST DataBase fornisce un catalogo di metadati degli asset dati. VAST DataSpace collega tutto in un ambiente coeso.

In sintesi, la natura unificata della piattaforma VAST Data si presta a una serie di casi d’uso intensivi di dati. Rimuovendo le limitazioni dell’infrastruttura, le possibilità sono infinite.

Il Futuro di VAST Data

VAST non mostra segni di rallentamento. L’azienda ha recentemente raccolto 210 milioni di dollari con una valutazione di 3,7 miliardi di dollari. VAST sta espandendosi in modo aggressivo, incluso il lancio di un nuovo centro di ricerca e sviluppo focalizzato sullo sviluppo delle tecnologie DASE.

Alcune aree su cui VAST sta innovando includono:

  • Rendere DASE accessibile come un tessuto componibile di servizi dati
  • Espandere le capacità del sistema di file globale
  • Nuove tecniche di riduzione dei dati come la compressione del DNA
  • Ottimizzazioni per carichi di lavoro AI/ML, GPGPU
  • Tiering dello storage a zone per l’accesso a dati a bassa latenza
  • Gestione dei dati ibrida e multi-cloud

Inoltre, Renen ha accennato a un’espansione del focus di mercato di VAST oltre l’AI e l’analisi, verso aree emergenti come ML Ops, il metaverso e il Web 3.0.

È un momento emozionante per vedere come pionieri come VAST Data stanno ridefinendo i limiti di ciò che è possibile con i dati. Con l’innovazione nell’AI e nelle applicazioni di prossima generazione che creano immense richieste di dati, le aziende che soddisfano queste esigenze infrastrutturali daranno impulso alle scoperte più rivoluzionarie.