Rilevamento delle impronte linguistiche con Python

Rilevamento impronte linguistiche con Python

Attribuzione dell’autore con mappe termiche di punteggiatura

Impronta forense singola in toni gialli con punto e virgola blu (immagine di DALL-E2 e autore)

La stilometria è lo studio quantitativo dello stile letterario attraverso l’analisi computazionale del testo. Si basa sull’idea che tutti abbiamo uno stile unico, coerente e riconoscibile nella nostra scrittura. Questo include il nostro vocabolario, il nostro uso della punteggiatura, la lunghezza media delle nostre parole e delle frasi, e così via.

Una tipica applicazione della stilometria è l’attribuzione dell’autore. Questo è il processo di identificazione dell’autore di un documento, ad esempio quando si indaga sul plagio o si risolvono dispute sull’origine di un documento storico.

In questo progetto di Successo Rapido di Data Science, utilizzeremo Python, seaborn e il Natural Language Toolkit (NLTK) per vedere se Sir Arthur Conan Doyle ha lasciato un’impronta linguistica nel suo romanzo, Il mondo perduto. Più specificamente, utilizzeremo i punti e virgola per determinare se Sir Arthur o il suo contemporaneo, H.G. Wells, è l’autore probabile del libro.

Il cane, la guerra e il mondo perduto

Sir Arthur Conan Doyle (1859-1930) è conosciuto principalmente per le storie di Sherlock Holmes. H. G. Wells (1866-1946) è famoso per diversi romanzi di fantascienza innovativi, come L’uomo invisibile.

Nel 1912, la rivista Strand pubblicò Il mondo perduto, una versione a puntate di un romanzo di fantascienza. Anche se il suo autore è noto, fingiamo che ci sia una disputa e che sia nostro compito risolvere il mistero. Gli esperti hanno ridotto il campo a due autori: Doyle e Wells. Wells è leggermente favorito perché Il mondo perduto è un’opera di fantascienza e include trogloditi simili ai Morlock nel suo libro del 1895, La macchina del tempo.

Per risolvere questo problema, avremo bisogno di opere rappresentative per ciascun autore. Per Doyle, utilizzeremo Il mastino dei Baskervilles, pubblicato nel 1901. Per Wells, utilizzeremo La guerra dei mondi, pubblicato nel 1898.

Fortunatamente per noi, tutti e tre i romanzi sono di pubblico dominio e disponibili tramite Project Gutenberg. Per comodità, li ho scaricati in questo Gist e ho rimosso le informazioni sulla licenza.

Il processo

L’attribuzione dell’autore richiede l’applicazione dell’Elaborazione del Linguaggio Naturale (NLP). L’NLP è un…