Entità nominate e le notizie

Named entities and news

Esplorazione dell’uso delle NE in un set di dati di notizie olandesi

Un esempio di un sistema di raccomandazione di notizie che potrebbe sicuramente beneficiare del riconoscimento delle entità nominate. Fonte: articolo di NOS Foto di Rick L su Unsplash (a sinistra), immagine dell'autore, creata in DreamStudio (al centro), articolo di NOS, Foto di Cristina Anne Costello su Unsplash (a destra).

Alla NOS – la Fondazione Olandese di Radiodiffusione Pubblica – ogni giorno centinaia di articoli di notizie vengono scritti dai nostri team editoriali. Questi articoli informano i cittadini olandesi sulle notizie, ma costituiscono anche un interessante e di alta qualità set di dati dal punto di vista dell’Elaborazione del Linguaggio Naturale. In questo blog, io, in qualità di Data Scientist presso la NOS, riporto diversi esperimenti effettuati applicando il Riconoscimento delle Entità Nominate (NER) al nostro set di dati degli articoli di notizie olandesi e presento diverse idee su come il NER possa essere applicato nel contesto delle notizie.

Cosa sono le Entità Nominate?

Un’entità nominata (NE) è un tipo speciale di parola che si riferisce a oggetti del mondo reale con nomi propri, ad esempio persone, luoghi o organizzazioni. Esistono modelli che riconoscono automaticamente questi tipi di parole, chiamati modelli di Riconoscimento delle Entità Nominate (NER). Un esempio di un tale modello NER applicato a un estratto di uno dei nostri articoli è mostrato nella figura a destra di seguito, dove le NE sono evidenziate e annotate con il tipo di NE.

In olandese, esistono alcuni modelli pre-addestrati come spaCy [1], Flair [2] o NTLK [3]. Abbiamo effettuato una valutazione qualitativa su questi tre modelli, applicandoli a un campione casuale dei nostri articoli e ispezionando manualmente i risultati. Da questo abbiamo deciso di utilizzare spaCy per il resto dei nostri esperimenti. Un’anteprima di tutti i tipi di NE che questo modello può riconoscere è presentata nella Figura 1 qui sotto a sinistra.

Figura 1: Panoramica dei tipi di NE disponibili nel modello NER di spaCy (a sinistra). Esempio di NER applicato a un estratto di articolo tradotto dall'olandese (a destra).

Utilizzando il modello pre-addestrato di spaCy, abbiamo applicato il NER a diversi sottoinsiemi del nostro set di dati. Abbiamo iniziato raccogliendo tutti gli articoli di un singolo mese (febbraio 2023), abbiamo suddiviso i dati nelle categorie notizie e sport (1.030 e 596 articoli rispettivamente), e poi abbiamo applicato il NER per ottenere i conteggi totali di frequenza per tipo di NE. I risultati per le notizie e lo sport sono mostrati nella Figura 2, e mostrano immediatamente l’importanza delle NE nelle notizie. Si può notare che in solo un mese di articoli, decine di migliaia di NE vengono menzionate negli articoli. Per mettere ciò in prospettiva, in media un articolo contiene 404 parole, e circa il 10% delle parole negli articoli sono NE. Si può anche vedere nelle figure qui sotto che i tipi di NE più frequentemente menzionati differiscono per le notizie e lo sport. Per le notizie, la maggior parte dei tipi di NE sono paesi, seguiti da organizzazioni e persone. Mentre per lo sport, il tipo di NE più frequente è persone, seguito da paesi e numeri. Ciò potrebbe essere spiegato dal fatto che lo sport menziona punteggi (cardinali) e atleti individuali (persone), mentre le notizie coprono eventi per i quali è spesso rilevante menzionare la posizione (gpe).

Figura 2: Conteggio di frequenza dei tipi di NE rilevati in un mese di articoli per gli articoli di notizie (a sinistra) e gli articoli di sport (a destra).

NER fornisce un nuovo punto di vista sui nostri dati

Abbiamo condotto uno studio di caso utilizzando tutti gli articoli sulla Coppa del Mondo di calcio 2022, per un totale di 482 articoli. NER è stato applicato al set di dati per rilevare tutte le NE con il tipo Persona. Sono state trovate 2.171 NE uniche, di cui 1.296 sono state menzionate solo una volta. Nella Figura 3A presentiamo una panoramica delle persone più frequentemente menzionate durante questo evento. Inoltre, per le persone più frequentemente menzionate, abbiamo creato un grafico a flusso per mostrare come le frequenze di menzione si sviluppano nel tempo, come si può vedere nella Figura 3B. Questo mostra ad esempio che van Gaal viene menzionato frequentemente durante tutto il torneo, mentre altri vengono menzionati principalmente in giorni specifici. Questo tipo di grafici può fornire ai nostri team editoriali nuovi tipi di informazioni, in quanto sono riflessi quantitativi di ciò di cui scrive la NOS. Tali informazioni sono efficientemente alimentate da NER. Per ora abbiamo applicato questo specificamente per la Coppa del Mondo 22, ma si possono immaginare molte diverse situazioni in cui questi tipi di grafici possono essere interessanti. Ad esempio, pensiamo a quali politici o partiti politici vengono menzionati durante le elezioni, o più in generale, alle frequenze di menzione di paesi, città, organizzazioni e così via per un periodo di tempo più ampio.

Figura 3A & B: Conteggio delle frequenze delle persone menzionate durante la Coppa del Mondo 22 ottenuto mediante NER. I totali sono mostrati a sinistra, lo sviluppo nel tempo a destra.

Tutto su [NOME ENTITÀ QUI]

Abbiamo portato lo studio di caso utilizzando tutti gli articoli sulla Coppa del Mondo 2022 un passo avanti e ci siamo posti la domanda “Possiamo utilizzare NER per generare riassunti per un’Entità Nominata?”. Abbiamo iniziato sviluppando un modulo che raccoglie tutti gli articoli che menzionano una determinata NE, che potrebbe servire come raccolta di tutte le informazioni disponibili sulla NE per gli utenti particolarmente interessati a questa NE. Ma, ancora più interessante, il modulo raccoglie tutte le frasi da questa raccolta in cui viene menzionata la NE, risultando in un riassunto della raccolta. Come esempio, abbiamo applicato il modulo per Andries Noppert, il portiere della nazionale olandese. Dalla Figura 3 si può già vedere che Noppert è stato menzionato abbastanza frequentemente durante l’evento. L’applicazione del modulo per Noppert ha prodotto un riassunto che delineava abbastanza bene la storia straordinaria del nostro portiere, che viene mostrato di seguito come tradotto dal olandese.

-------------------------------------------------- -------------------------------------------------- --------------------2022-11-11   - Noppert si unisce come un killer di rigori?-------------------------------------------------- -------------------------------------------------- --------------------2022-11-16   - Andries Noppert, portiere dello sc Heerenveen, è il diciannovesimo giocatore della Premier League in Qatar.-------------------------------------------------- -------------------------------------------------- --------------------2022-11-20   - 'Non preoccuparti di Qatar ed Ecuador' e 'Fallimento in porta è un rischio' Gli analisti Leonne Stentler e Pierre van Hooijdonk sono d'accordo.   - Van Gaal non dice nulla sul posto base di Noppert, ma fa accenni a Gakpo 'a 10' Secondo vari media, Andries Noppert, 28 anni, che gioca per lo sc Heerenveen, avrebbe fatto il suo debutto nella squadra olandese contro il Senegal lunedì.-------------------------------------------------- -------------------------------------------------- --------------------2022-11-21   - Noppert è ora il portiere titolare?   - Noppert: 'Questo è ciò di cui si sogna da bambini' Il portiere Andries Noppert si è dimostrato non soffrire di paura da palcoscenico contro il Senegal.   - Noppert riuscirà a succedere al primo debuttante in una Coppa del Mondo Schoenaker?   - Il portiere Andries Noppert fa il suo debutto in maglia arancione e può guardare indietro a una prima partita internazionale di successo.-------------------------------------------------- -------------------------------------------------- --------------------2022-11-22   - Noppert 'smarmittato' prende il palco: 'In Olanda tutti ci lamentiamo' Il portiere di 28 anni dello sc Heerenveen ha fatto il suo debutto lunedì nella partita di Coppa del Mondo contro il Senegal nella nazionale olandese.-------------------------------------------------- -------------------------------------------------- --------------------2022-11-23   - Noppert?-------------------------------------------------- -------------------------------------------------- --------------------2022-11-24   - L'episodio Foggia del portiere olandese Noppert: 'Fumava come un turco' Andries Noppert è improvvisamente diventato un olandese famoso dopo la partita di Coppa del Mondo dei Paesi Bassi contro il Senegal.-------------------------------------------------- -------------------------------------------------- --------------------2022-11-25   - Jurriën Timber, Virgil van Dijk e Nathan Aké avevano le loro difese ben organizzate e Andries Noppert si è dimostrato nuovamente un portiere affidabile.-------------------------------------------------- -------------------------------------------------- --------------------2022-12-03   - Guarda le reazioni di Virgil van Dijk e Andries Noppert qui: In quella squadra, uno dei giocatori importanti è appena tornato nella sua posizione familiare in attacco.   - Andries Noppert ha fatto un bel salvataggio con la gamba sinistra.-------------------------------------------------- -------------------------------------------------- --------------------2022-12-07   - Noppert vive sobriamente verso l'Argentina: 'Messi può anche sbagliare i rigori, no?'-------------------------------------------------- -------------------------------------------------- --------------------2022-12-09   - Quindi sì..." La favola di Noppert è finita Poteva essere così bello per il portiere dello sc Heerenveen Andries Noppert, ma il portiere dall'altra parte, Emiliano Martinez, è diventato il grande eroe.   - Il terzino argentino Molina scappò dal retro del suo collega olandese Blind, Virgil van Dijk arrivò un po' troppo tardi per correggere e Molina passò Andries Noppert.-------------------------------------------------- -------------------------------------------------- --------------------2022-12-16   - Sei fatti sorprendenti sulla Coppa del Mondo: Amrabat conquista, Modric dribbla, Noppert salva Statistiche sorprendenti ovunque durante la Coppa del Mondo in Qatar.-------------------------------------------------- -------------------------------------------------- --------------------2022-12-18   - Andries Noppert (Paesi Bassi) Vermeulen: "Lo stesso vale per Noppert, ovviamente.

Un sistema di raccomandazione basato su NE

Fino ad ora abbiamo visto che le NE sono abbondanti negli articoli di notizie e che l’applicazione del NER può fornire interessanti spunti. C’è un altro esperimento che riteniamo interessante condividere in questo blog che riguarda la domanda di ricerca “Possiamo utilizzare il NER per migliorare il nostro sistema di raccomandazione basato sui contenuti?”. In precedenza abbiamo sviluppato un sistema di raccomandazione basato sui contenuti che è stato recentemente integrato nella nostra app di notizie. Utilizzando test online e offline abbiamo confrontato vari modelli e ottimizzazioni e ora osserviamo un aumento del tasso di clic nell’app. Queste sono tutte ottime notizie, ma stiamo sempre cercando modi per migliorare ulteriormente il nostro sistema di raccomandazione. Abbiamo ricevuto feedback dai nostri team editoriali che indicano che il sistema di raccomandazione è confuso per gli articoli che contengono nomi di persone o luoghi che sono anche parole comuni nella lingua olandese. Nella sezione seguente riportiamo un esperimento che utilizza il NER nel tentativo di risolvere questo tipo di ambiguità.

L’esperimento

Il nostro attuale sistema di raccomandazione si basa su similarità coseno utilizzando TF-IDF per vettorizzare i testi. Questo significa essenzialmente che si basa pesantemente sulla sovrapposizione delle parole per identificare articoli simili, ma assegna maggiore rilevanza alle parole che sono rare. Si può immaginare che questo metodo non funzioni quando le parole hanno significati multipli, come può essere il caso delle NE. Ad esempio, consideriamo un articolo sul golfista Tiger Woods: un sistema di raccomandazione di base potrebbe trovare articoli correlati che menzionano l’animale tigre o articoli sugli alberi. Queste non sarebbero chiaramente raccomandazioni utili. Abbiamo ipotizzato che questo potesse essere risolto introducendo la consapevolezza delle NE nel nostro sistema di raccomandazione mediante l’annotazione delle NE nei testi in base al loro tipo. In questo caso, i token non si sovrapporrebbero più, come illustrato nella Figura 5.

Figura 5: Un esempio del nostro attuale sistema di raccomandazione (base) rispetto al sistema NE-aware. Il sistema attuale mette in relazione i due articoli a causa della parola 'tigre' menzionata in entrambi gli articoli, mentre il sistema NE-aware risolve questa ambiguità. Fonte: articolo di NOS, Foto di Rick L su Unsplash (sinistra), articolo di NOS, Foto di Cristina Anne Costello su Unsplash (destra).

Abbiamo implementato la consapevolezza delle NE utilizzando i tipi di NE persona, luogo, organizzazione e una combinazione di tutti questi. Abbiamo valutato i vari modelli utilizzando un set di test annotato manualmente dai nostri team editoriali e che contiene informazioni su quali articoli sono correlati. Questo set di test contiene 14.541 articoli unici e in media ogni articolo è collegato ad altri 2 articoli. Come metrica di valutazione, abbiamo calcolato il rango medio degli articoli correlati curati all’interno delle raccomandazioni ordinate.

La Figura 6 mostra i risultati per il nostro modello base e i vari modelli NE-aware. Si può vedere che in realtà il nostro modello base è migliore di tutti i tipi di modelli NE-aware. In teoria l’introduzione della consapevolezza delle NE migliorerebbe il raccomandatore, ma nella pratica vediamo che introduce più ambiguità di quanta ne risolva. Abbiamo esaminato in dettaglio l’output dei vari modelli e abbiamo visto che siamo limitati dalle prestazioni del modello NER. Il modello NER di spaCy, valutato sul loro stesso set di test, ha un punteggio F-score di 0,77, ma questo punteggio potrebbe essere più basso quando applicato a un altro set di dati, quindi ci si può aspettare che il modello sia occasionalmente inaccurato. Dall’ispezione manuale di alcune raccomandazioni prodotte dai modelli NE-aware abbiamo visto che in combinazione con TF-IDF l’effetto delle NE erroneamente rilevate è piuttosto forte. Per gli articoli con NE erroneamente rilevate, le raccomandazioni di output contengono spesso la stessa NE erroneamente rilevata. Abbiamo visto ad esempio un articolo che conteneva la parola “hindsight” classificata come NE di tipo Persona, con conseguenti raccomandazioni che contenevano la stessa NE erroneamente classificata “hindsight”. Sebbene il NER sia sbagliato in questo caso, le raccomandazioni hanno senso perché TF-IDF assegnerà una maggiore rilevanza ai token come “hindsight_Person” poiché sono molto rari nel corpus. La nostra conclusione è che i modelli pre-addestrati NER olandesi non sono al momento abbastanza accurati da essere incorporati nel nostro sistema di raccomandazione.

Figura 6: Un confronto delle prestazioni del nostro attuale sistema di raccomandazione (base) rispetto ai sistemi NE-aware.

Potremmo trarre vantaggio dall’affinare i modelli pre-addestrati noi stessi in futuro. Per ora abbiamo esplorato un altro approccio per risolvere l’ambiguità delle Entità Nominative (NE) utilizzando metadati come categorie e parole chiave come misura priva di rumore ma meno strettamente correlata per NE, il che ha migliorato notevolmente il nostro sistema di raccomandazione.

Conclusioni

In questo blog abbiamo esplorato cosa si può fare con il Riconoscimento delle Entità Nominative quando applicato a un set di dati di notizie olandesi. Abbiamo visto che funziona bene quando viene utilizzato per ottenere informazioni generali sul set di dati, come la creazione di grafici di frequenza delle NE e streamgraph. Tuttavia, quando applicato al nostro sistema di raccomandazione, abbiamo visto che i modelli non erano abbastanza accurati. Sebbene l’introduzione della consapevolezza delle NE abbia risolto alcune ambiguità, ha contemporaneamente introdotto nuove ambiguità sotto forma di errori nella rilevazione delle NE. In futuro potremmo sperimentare con l’affinamento di un modello pre-addestrato o addestrare il nostro modello da zero. Se hai suggerimenti, faccelo sapere nei commenti!

Tutte le immagini, salvo diversa indicazione, sono dell’autore.

Riferimenti[1] Modello NER spaCy: https://spacy.io/models/nl#nl_core_news_lg[2] Modello NER Flair: https://huggingface.co/flair/ner-dutch-large[3] Modello NER NLTK: https://www.nltk.org/book/ch07.html

Informazioni sul NOSNOS è un’organizzazione indipendente di media pubblici nei Paesi Bassi che riporta notizie e sport attraverso piattaforme come televisione, radio, siti web e app mobili. Abbiamo team dedicati di professionisti che creano servizi digitali per diverse marche. La ricerca descritta in questo blog è stata effettuata come membro del team dati NOS, che è responsabile dell’esplorazione dell’uso di tecniche innovative di Data Science e Intelligenza Artificiale nel contesto delle notizie.