Vector Database Che cos’è e perché tutta questa eccitazione?

Vector Database cos'è e perché l'eccitazione?

Una panoramica dei molteplici compromessi da considerare quando scegli la tua soluzione di database vettoriale

Foto di İsmail Enes Ayhan su Unsplash

I database vettoriali hanno ricevuto molta attenzione negli ultimi mesi, con più di 10 aziende che offrono qualche tipo di architettura di database vettoriale. Perché esistono così tanti tipi? Cos’è un database vettoriale? Dovrei spostare il mio database in un database vettoriale? Per rispondere a queste domande, iniziamo prima di tutto cercando di definire cosa sia un dato.

Una panoramica storica dei database

I dati consistono in informazioni che sono memorizzate digitalmente in un computer e possono essere organizzate o parzialmente strutturate. I dati di solito vengono memorizzati in un sistema costruito per un facile accesso e gestione, il database. I vettori sono costituiti da un tipo specifico di dati, di solito una rappresentazione compressa che contiene una qualche forma di rappresentazione semantica della sua identità sottostante. Il punto principale dell’utilizzo dei vettori è che la loro identità sottostante può essere qualsiasi cosa, da un documento di testo a un file audio. Un database vettoriale è un sistema di database progettato per gestire i vettori su larga scala. L’idea è di essere in grado di recuperare i vettori in base alla semantica della query, poiché la comprensione semantica consente traduzioni delle query e risultati migliori rispetto a una query basata su parole chiave.

Quando si pensa ai database, i database SQL sono uno dei primi tipi che vengono in mente. Questo perché hanno avuto origine negli anni ’70 e sono uno dei tipi di database più maturi. Sono così ampiamente utilizzati che chiunque abbia lavorato in un campo legato ai dati ha avuto qualche interazione con essi in qualche momento. Il loro successo è dovuto al fatto che considerano i dati come strutturati e nel mondo reale, molta creazione di dati avviene in forma transazionale. Utilizzando tutte queste transazioni in sequenza per memorizzare i dati si ottiene una tabella strutturata. I database relazionali diventano interessanti quando diverse tabelle vengono collegate insieme per riflettere la complessità del mondo. Nonostante il loro indiscutibile successo, il principale svantaggio dei database relazionali è la loro inflessibilità. I dati del mondo reale possono provenire da diverse fonti e con l’avvento dei big data, la raccolta dei dati avviene a grande velocità. Essere in grado di raccogliere dati da queste diverse fonti richiede di salvare dati che a volte possono essere…