Incontra LegalBench un benchmark AI open-source costruito collaborativamente per valutare il ragionamento legale nei grandi modelli di linguaggio in inglese.

LegalBench è un benchmark AI open-source per valutare il ragionamento legale nei grandi modelli di linguaggio in inglese.

Gli avvocati e gli amministratori americani stanno rivalutando la professione legale a causa dei progressi nei modelli di linguaggio di grandi dimensioni (LLM). Secondo i suoi sostenitori, gli LLM potrebbero cambiare il modo in cui gli avvocati affrontano lavori come la scrittura di brevi e la conformità aziendale. Potrebbero contribuire in futuro a risolvere il dilemma dell’accesso alla giustizia negli Stati Uniti aumentando l’accessibilità dei servizi legali. Questo punto di vista è influenzato dalla scoperta che gli LLM hanno qualità uniche che li rendono più adatti al lavoro legale. Le spese associate all’annotazione manuale dei dati, che spesso aggiungono costo alla creazione di modelli di linguaggio legale, sarebbero ridotte dalla capacità dei modelli di imparare nuovi compiti da piccole quantità di dati etichettati.

Sarebbero anche adatti per lo studio rigoroso del diritto, che include la decodifica di testi complessi con abbondanza di gergo e l’impiego di procedure inferenziali che integrano diverse modalità di pensiero. Il fatto che le applicazioni legali coinvolgano spesso un alto rischio attenua questo entusiasmo. La ricerca ha dimostrato che gli LLM possono produrre informazioni offensive, ingannevoli e factualmente errate. Se queste azioni venissero ripetute in contesti legali, potrebbero causare danni gravi, con persone storicamente marginalizzate e svantaggiate che sopportano un peso sproporzionato. Pertanto, è urgente costruire infrastrutture e procedure per misurare gli LLM in contesti legali a causa delle implicazioni sulla sicurezza.

Tuttavia, i professionisti che vogliono valutare se gli LLM possono utilizzare il ragionamento legale incontrano ostacoli significativi. Il primo ostacolo è la piccola ecologia di benchmark legali. Ad esempio, la maggior parte dei benchmark attuali si concentra su compiti che i modelli apprendono regolando o addestrando su dati specifici del compito. Questi standard non catturano le caratteristiche degli LLM che suscitano interesse nella pratica legale, in particolare la loro capacità di completare vari compiti con brevi promemoria. Allo stesso modo, le iniziative di benchmarking si sono concentrate su esami di certificazione professionale come l’Uniform Bar Exam, anche se non indicano sempre applicazioni reali per gli LLM. Il secondo problema è la discrepanza tra il modo in cui gli avvocati e gli standard stabiliti definiscono il “ragionamento legale”.

I benchmark attualmente utilizzati classificano ampiamente qualsiasi lavoro che richieda informazioni legali o leggi come “valutazione del ragionamento legale”. Al contrario, gli avvocati sono consapevoli che l’espressione “ragionamento legale” è ampia e comprende diverse forme di ragionamento. Diverse responsabilità legali richiedono diverse abilità e corpi di conoscenza. È difficile per i professionisti legali contestualizzare le prestazioni degli LLM contemporanei all’interno del loro senso di competenza legale poiché gli standard legali esistenti devono identificare queste differenze. La professione legale non utilizza lo stesso gergo o quadri concettuali degli standard legali. Date queste restrizioni, ritengono che per valutare rigorosamente le capacità di ragionamento legale degli LLM, la comunità legale dovrà essere più coinvolta nel processo di benchmarking.

A tal fine, introducono LEGALBENCH, che rappresenta le fasi iniziali nella creazione di un benchmark collaborativo interdisciplinare per il ragionamento legale in inglese.3 Gli autori di questa ricerca hanno lavorato insieme nell’ultimo anno per costruire 162 compiti (da 36 diverse fonti di dati), ciascuno dei quali testa una forma specifica di ragionamento legale. Si sono avvalsi delle loro diverse esperienze legali e informatiche. Per quanto ne sappiano, LEGALBENCH è il primo progetto di benchmarking legale open source. Questo metodo di progettazione del benchmark, in cui gli esperti della materia partecipano attivamente allo sviluppo dei compiti di valutazione, rappresenta un tipo di cooperazione multidisciplinare nella ricerca sugli LLM. Sostengono anche che dimostra il ruolo fondamentale che i professionisti legali devono svolgere nella valutazione e nello sviluppo degli LLM nel diritto.

Mettono in evidenza tre aspetti di LEGALBENCH come progetto di ricerca:

1. LEGALBENCH è stato costruito utilizzando una combinazione di set di dati legali preesistenti che sono stati riformattati per il paradigma LLM di poche osservazioni e set di dati creati manualmente che sono stati generati e forniti da esperti legali che sono stati anche elencati come autori di questo lavoro. Gli esperti legali coinvolti in questa collaborazione sono stati invitati a fornire set di dati che testano una particolare abilità di ragionamento legale interessante o rappresentano un’applicazione praticamente utile per gli LLM nel diritto. Di conseguenza, una buona prestazione sui compiti di LEGALBENCH offre dati rilevanti che gli avvocati possono utilizzare per confermare la propria opinione sulla competenza legale di un LLM o per trovare un LLM che potrebbe giovare al loro flusso di lavoro.

2. I compiti su LEGALBENCH sono organizzati in una tipologia dettagliata che descrive i tipi di ragionamento legale necessari per completare l’assegnazione. I professionisti legali possono partecipare attivamente ai dibattiti sulle prestazioni degli LLM poiché questa tipologia attinge a quadri comuni alla comunità legale e utilizza un linguaggio e un quadro concettuale con cui sono già familiari.

3. Infine, LEGALBENCH è progettato per fungere da piattaforma per ulteriori studi. LEGALBENCH offre un sostegno sostanziale per sapere come sollecitare e valutare varie attività per i ricercatori di intelligenza artificiale senza formazione legale. Inoltre, intendono ampliare LEGALBENCH continuando a sollecitare e includere il lavoro dei praticanti legali man mano che sempre più la comunità legale continua a interagire con l’effetto e la funzione potenziali degli LLM.

Contribuiscono a questo articolo:

1. Offrono una tipologia per classificare e caratterizzare i doveri legali in base alle giustificazioni necessarie. Questa tipologia si basa sui quadri concettuali che gli avvocati usano per spiegare il ragionamento giuridico.

2. Successivamente, forniscono una panoramica delle attività in LEGALBENCH, delineando come sono state create, le dimensioni di significativa eterogeneità e i vincoli. Nell’allegato viene fornita una descrizione dettagliata di ciascun incarico.

3. Per analizzare 20 LLM provenienti da 11 famiglie diverse in vari punti di dimensione, utilizzano LEGALBENCH come loro ultimo passaggio. Fanno una prima indagine su diverse tattiche di ingegneria delle sollecitazioni e fanno osservazioni sull’efficacia di vari modelli.

Queste conclusioni illustrano in definitiva diversi argomenti di ricerca potenziali che LEGALBENCH potrebbe facilitare. Prevedono che una varietà di comunità troverà interessante questo benchmark. I praticanti possono utilizzare queste attività per decidere se e come includere gli LLM nei processi attuali per migliorare i risultati dei clienti. I vari tipi di annotazione che gli LLM sono in grado di fare e i diversi tipi di lavori scientifici empirici che permettono possono interessare gli accademici del diritto. Il successo di questi modelli in un campo come il diritto, in cui caratteristiche lessicali speciali e compiti impegnativi possono rivelare nuove intuizioni, può interessare gli informatici.

Prima di proseguire, chiariscono che lo scopo di questo lavoro non è valutare se le tecnologie computazionali dovrebbero sostituire avvocati e personale legale o comprendere i vantaggi e gli svantaggi di tale sostituzione. Invece, vogliono creare artefatti per aiutare le comunità interessate e gli attori pertinenti a comprendere meglio quanto bene gli LLM possano svolgere determinati compiti legali. Date la diffusione di queste tecnologie, ritengono che la soluzione a questo problema sia cruciale per garantire l’uso sicuro ed etico degli strumenti legali computazionali.