Ricerca di similarità per l’incorporamento una rivoluzione nel campo dell’analisi dei dati

La ricerca di similarità una rivoluzione nell'analisi dei dati

Dal momento che l’ascesa meteorica di OpenAI si è portata al primo piano dell’innovazione, numerosi giganti della tecnologia – tra cui AWS, Google, IBM, Microsoft, Databricks, Meta o Oracle, per citarne alcuni, hanno integrato il loro approccio generativo all’IA nei loro programmi di ricerca e sviluppo.

E’ così che Oracle ha annunciato alla sua conferenza annuale CloudWorld che l’azienda sta aggiungendo capacità di IA generativa al suo servizio di analisi dati Cloud.

“L’IA generativa. È la tecnologia più importante di sempre? Probabilmente” – Larry Ellison, CTO e co-fondatore di Oracle.

Oracle ha aggiunto funzionalità di IA generativa al suo servizio di analisi dati Cloud data analysis. Lo scopo è di importare documenti in una vasta gamma di formati, memorizzarli e recuperarli in base al loro significato. Per ottenere questo, Oracle implementa un metodo che coinvolge l’integrazione dei documenti sotto forma di embeddings.

“La ricerca di similarità vettoriale utilizza l’apprendimento automatico per tradurre la similarità di testo, immagini o audio in uno spazio vettoriale, rendendo la ricerca più rapida, accurata e scalabile”. – Martin Heller – Dottore in Fisica – Università Brown

Embedding

Nel contesto dell’analisi del testo, la “ricerca di similarità per gli embeddings”serve per trovare documenti di testo o passaggi il cui significato è più simile a quello di una determinata query o testo di input.

Gli embeddings rappresentano parole all’interno di un contesto di analisi testuale come vettori. In ambito di NLP e LLMs, queste tecnologie avanzate consentono ai sistemi di utilizzare (alcuni potrebbero dire “comprendere”) in modo più efficace i contenuti testuali.

Un database vettoriale non tiene traccia delle parole, ma invece lavora con i vettori numerici che codificano il significato stesso del testo. Allo stesso modo, le query degli utenti vengono trasformate anche in vettori numerici. In questo modo, il database può essere interrogato per trovare articoli o passaggi rilevanti, che contengano o meno gli stessi termini.

Nel campo del processing del linguaggio naturale (NLP), il processo di conversione del testo in vettori numerici e di ricerca di similarità svolge un ruolo cruciale. Ecco una panoramica dei concetti e delle tecniche fondamentali di rappresentazione vettoriale e di recupero dei documenti pertinenti.

  1. Rappresentazione vettoriale: I documenti di testo devono essere convertiti in vettori numerici utilizzando tecniche come l’embedding delle parole o metodi più avanzati come l’embedding basato su trasformatori. Ciascuna parola o documento viene rappresentato come un vettore in uno spazio ad alta dimensionalità. In un certo senso, l’embedding delle parole è una forma di rappresentazione delle parole che cerca di colmare il divario tra la comprensione umana del linguaggio e quella di una macchina.
  2. Query vector: Anche il testo di input della query viene trasformato in un vettore utilizzando le stesse tecniche di integrazione. Questo vettore di query rappresenta il significato o il contenuto della query. I database vettoriali sono progettati per ricerche di similarità ad alta velocità all’interno di enormi set di dati. Eccellono nella gestione dei dati vettoriali sfruttando indicizzazione e interrogazione dati uniche che riducono significativamente lo spazio di ricerca, accelerando così il processo di recupero. I database vettoriali gestiscono efficacemente strutture dati complesse.
  3. Ricerca di similarità: Il sistema ricerca quindi altri documenti di testo, anch’essi rappresentati come vettori, per trovare quelli più simili al vettore di query. Nel contesto dei modelli di linguaggio estesi (LLMs) e dell’IA generativa, il ruolo della ricerca di similarità vettoriale consiste nell’individuare elementi o punti di dati simili all’interno di set di dati complessi e di grandi dimensioni, il che è particolarmente importante quando si lavora con spazi ad alta dimensionalità. Mentre i metodi di ricerca convenzionali potrebbero avere difficoltà, la ricerca di similarità vettoriale semplifica il processo di ricerca di informazioni correlate trasformando testo e dati in vettori numerici e utilizzando algoritmi specializzati.
  4. Recupero dei documenti pertinenti: I documenti o passaggi i cui vettori sono più simili al vettore di query sono considerati i più rilevanti e vengono recuperati come risultati di ricerca. Questo approccio consente ai sistemi di analisi del testo di trovare documenti o passaggi che non contengono esattamente le stesse parole della query, ma che hanno un significato semantico simile. È uno strumento potente per il recupero delle informazioni e la comprensione del linguaggio naturale.

Perché è importante oltre l’aspetto delle prestazioni?

Vale sicuramente la pena ricordare che l’uso delle tecnologie di IA generative deve essere affiancato da un monitoraggio continuo e da un impegno verso un uso responsabile e una riflessione etica. Queste tecnologie devono essere utilizzate con cura per evitare potenziali problemi ed errori.

Qualità dei dati

La qualità dei dati di addestramento può influenzare significativamente l’efficacia dell’incorporamento e della ricerca di similarità. Dati rumorosi o di partito possono portare a risultati inaccurati. È essenziale essere in grado di garantire la qualità delle informazioni prima di condividerle, in particolare in settori come la salute, le finanze o la sicurezza.

Privacy

Evitare di divulgare informazioni personali o aziendali sensibili quando si utilizzano LLM, poiché ciò potrebbe compromettere la privacy delle persone o delle aziende. È successo all’interno di Samsung, dove dipendenti dell’azienda hanno condiviso informazioni riservate per ben tre volte. Inizialmente, una persona ha copiato il codice sorgente in ChatGPT per una richiesta di risoluzione di un problema. Successivamente, qualcuno ha condiviso dettagli sull’ottimizzazione del codice. Infine, un’altra persona ha convertito una relazione di riunione in una presentazione utilizzando ChatGPT.

Scalabilità

Scalare queste tecniche per gestire set di dati estremamente grandi e le risorse di calcolo richieste può sembrare una vera limitazione, sia dal punto di vista dei costi che dell’impronta di carbonio.

Comprensione semantica

Anche se l’incorporamento cattura in parte il significato semantico, potrebbe non sempre cogliere appieno il contesto o le sfumature del linguaggio umano.

Privacy ed Etica

Le considerazioni etiche legate all’uso dell’incorporamento e della ricerca di similarità nell’IA, come preoccupazioni sulla privacy e possibili distorsioni nei risultati di ricerca.

“È possibile differenziare gli uova di pollo dalle uova di mucca osservandone la dimensione e il colore; le uova di mucca sono generalmente più grandi delle uova di pollo”. – ChatGPT

Limitare la diffusione di informazioni errate (conosciute come “allucinazioni”)

L’IA generativa può produrre informazioni errate o fuorvianti. È essenziale verificare la veridicità delle informazioni prima di condividerle. Il fenomeno delle “allucinazioni”, infatti, si riferisce a tutta una serie di inesattezze degli LLM. Questo può comportare la fornitura di riflessioni o citazioni fantasiose, dissertazioni sicure su argomenti stravaganti come le “uova di mucca”, l’invenzione totale di fatti o figure storiche, la combinazione impropria di concetti o informazioni, ecc…

Non posso raccomandare di accettare ciecamente informazioni non supervisionate generate, soprattutto quando vengono utilizzate in contesti importanti come la salute, le finanze, la sicurezza o in generale nel campo della presa di decisioni.

Anche se Yann Lecun sostiene che non si possa risolvere senza una ridisegnazione completa dei modelli sottostanti, una combinazione di tecniche e metodi può ridurre l’impatto di questi problemi e renderli accettabili per molti casi d’uso. Ma questo sarà argomento di un articolo separato.

Conclusioni

L’incorporamento è una tecnica di analisi del testo che trasforma le parole in vettori numerici, consentendo ricerche di similarità efficienti per documenti con significato simile a una determinata query. Questo metodo svolge un ruolo vitale negli LLM e nell’IA generativa, consentendo loro di trovare punti dati correlati in set di dati ad alta dimensionalità, migliorando il recupero delle informazioni e la comprensione del linguaggio naturale.

Oracle ha implementato questo approccio innovativo per migliorare la ricerca di documenti nel suo servizio di analisi dei dati Cloud.

Ora, trovare dati rilevanti è più facile che distinguere un uovo di pollo da un uovo di mucca 😉