Dati non strutturati diventano strutturati con LLMs
LLMs strutturano dati non strutturati.
Impara come utilizzare grandi modelli linguistici per estrarre informazioni dai documenti per l’analisi e l’AI su vasta scala. Unisciti a questo webinar e tutorial dal vivo per imparare come iniziare.
Post sponsorizzato
Autore: Michael Ortega e Geoffrey Angus Assicurati di registrarti per il nostro prossimo webinar per imparare come utilizzare grandi modelli di linguaggio per estrarre informazioni da documenti non strutturati. Grazie a ChatGPT, le interfacce di chat sono il modo in cui la maggior parte degli utenti ha interagito con i LLM. Sebbene questo sia rapido, intuitivo e divertente per una vasta gamma di casi d’uso generativi (ad esempio, ChatGPT scrivimi una barzelletta su quanti ingegneri ci vogliono per scrivere un blog), ci sono limitazioni fondamentali a questa interfaccia che impediscono loro di entrare in produzione.
- Lento – le interfacce di chat sono ottimizzate per fornire un’esperienza a bassa latenza. Tali ottimizzazioni spesso vengono a scapito della throughput, rendendole non valide per casi d’uso di analisi su larga scala.
- Imprecisi – anche dopo giorni di iterazione dedicata alle prompt, i LLM sono spesso inclini a fornire risposte verbose a domande semplici. Anche se tali risposte sono a volte più intelligibili per gli esseri umani nelle interazioni tipo chat, sono spesso più difficili da analizzare e consumare in ecosistemi software più ampi.
- Supporto limitato per l’analisi: anche quando connessi ai dati privati (tramite un indice di embedding o in altro modo), la maggior parte dei LLM implementati per la chat non possono inglobare tutto il contesto richiesto per molte classi di domande tipicamente poste dagli analisti dei dati.
La realtà è che molti di questi sistemi di ricerca e Q&A basati su LLM non sono ottimizzati per casi d’uso di analisi su larga scala pronti per la produzione.
- Smetti di Codificare Duramente in un Progetto di Data Science – Usa invece File di Configurazione
- Questo articolo sull’IA studia l’impatto dell’anonimizzazione per l’addestramento dei modelli di visione artificiale con un focus sui dataset di veicoli autonomi.
- Cosa fare dopo la laurea in Ingegneria?
L’approccio giusto: Generare informazioni strutturate da dati non strutturati con LLM
Immagina di essere un gestore di portafoglio con un gran numero di documenti finanziari. Vuoi porre la seguente domanda: “Di questi 10 investimenti prospettici, fornisci il maggior ricavo ottenuto da ciascuna azienda tra gli anni 2000 e 2023?” Un LLM fuori dalla scatola, anche con un sistema di recupero dell’indice connesso ai tuoi dati privati, avrebbe difficoltà a rispondere a questa domanda a causa del volume di contesto richiesto.
Felizmente, c’è un modo migliore. Puoi rispondere alle domande sull’intero corpus più rapidamente usando un LLM per convertire i tuoi documenti non strutturati in tabelle strutturate tramite un singolo grande lavoro in batch. Utilizzando questo approccio, l’istituzione finanziaria dall’esempio sopra potrebbe generare dati strutturati in una tabella da un grande insieme di PDF finanziari utilizzando uno schema definito. Quindi, produrre rapidamente statistiche chiave sul loro portafoglio in modi in cui un LLM basato su chat avrebbe difficoltà.
Inoltre, potresti costruire nuovi modelli di ML tabellari sulla base dei dati strutturati derivati per attività di data science downstream (ad esempio, basandoti su questi 10 fattori di rischio, quale azienda è più probabile che fallisca). Questo modello ML più piccolo e specifico per attività utilizzando i dati strutturati derivati sarebbe più performante e costerebbe meno da eseguire rispetto a un LLM basato su chat.
Scopri come estrarre informazioni strutturate dai tuoi documenti con LLM
- Definisci uno schema di dati da estrarre da un grande corpus di PDF
- Personalizza e utilizza LLM open source per costruire nuove tabelle con citazioni di origine
- Visualizza ed esegui analisi predictive sui dati estratti
Avrai la possibilità di porre le tue domande live durante la nostra sessione di Q&A. Salva il tuo posto