Un software in grado di decifrare le lingue antiche

Un nuovo software, che ha impiegato circa 2 ore per decifrare la scrittura ugaritica, potrebbe migliorare i sistemi di traduzione online.

Nel suo libro Lost Languages, pubblicato nel 2002, Andrew Robinson dichiarò che decifrare gli antichi sistemi di scrittura richiedeva una sintesi di logica ed intuito che i computer non potevano avere. Oggi però le cose potrebbero cambiare…

Regina Brazilay, professore associato al  MIT’s Computer Science and Artificial Intelligence Lab, Ben Snyder, studente nello stesso laboratorio, e Kevin Knight, dell’University of Southern California, il prossimo mese presenteranno all’Annual Meeting of the Association for Computational Linguistics in Svezia un nuovo sistema computazionale che in poche ore è stato capace di decifrare gran parte dell’antica lingua semitica di Ugarit. Oltre ad aiutare gli archeologi a decifrare le lingue antiche più ostiche, il sistema potrebbe ampliare il pacchetto di lingue previste dai più moderni sistemi di traduzione on-line, quali Google. Per ovviare alla mancanza di intuito propria dei computer e sottolineate da Robinson, i ricercatori hanno previsto alcune asserzioni di base. Per prima cosa la lingua che sarà decifrata viene paragonata dal software con un’altra lingua, ad esempio nel caso della lingua ugaritica i ricercatori hanno scelto l’ebraico. In seguito si è cercato di utilizzare un modo sistematico per mappare l’alfabeto, tenendo conto dei simboli correlati che hanno una certa frequenza in entrambi i linguaggi scelti. Il software è in grado di fare le stesse cose a livello delle parole, ad esempio le parole che hanno radici condivise, come main e mano in francese e spagnolo, o homme e hombre, e a livello di parti di parole; ad esempio per la parola overloading contiene un prefisso, over, e un suffisso, ing, il software cercherà altre parole nella lingua da decifrare che presentano la medesima struttura, come ad esempio la parola francese surchargeant.

Diafonia

Il software svolge questi diversi livelli di corrispondenza separatamente. Si incomincia, ad esempio, con poche ipotesi per la mappatura dell’alfabeto, basate interamente sulla frequenza dei simboli, elaborando una mappatura dei simboli frequenti in una lingua a confronto con quelli che si ripresentano nell’altra. Usando poi un modello probabilistico molto comune nella ricerca delle intelligenze artificiali, il software determina quali delle mappature precedentemente elaborate contengono una serie di suffissi e prefissi identificabili. Su questa base si procede alle corrispondenze a livello delle parole e solo dopo si procede al livellamento delle mappature dell’alfabeto.

La lingua ugaritica è stata già decifrata, ma i ricercatori hanno voluto testare la correttezza del software. L’alfabeto ugaritico contiene 30 lettere e il software ne ha mappati con esattezza 29, utilizzando l’ebraico come lingua di confronto. Circa un terzo delle parole ugaritiche hanno delle controparti nella lingua ebraica e il software ne ha identificate il 60%. L’unico problema è che il sistema non è in grado di risolvere le ambiguità estrapolandone il significato dal contesto; ad esempio i termini ugaritici per “casa” e “figlia” hanno la stessa pronuncia, mentre le controparti ebraiche no. In questo caso il linguista umano è in grado di estrapolare l’esatto significato dal contesto della frase.

Babele

Nonostante tutto, Andrew Robinson si è dimostrato scettico nei confronti di questo nuovo software; il problema principale seconodo Robinson è che il software, soprattutto per le lingua ancora indecifrate, parte dal presupposto che tutte le lingue abbiano un alfabeto e che questo sia confrontabile con lingue già conosciute. Non c’è cosa più sbagliata. Tuttavia Barzilay sostiene che per decifrare la lingua ugaritica ci sono voluti anni e il tutto è stato possibile grazie a fortunate coincidenze. Il software non vuole sostituire i linguisti umani, ma vuole essere un potente mezzo al servizio dell’uomo.

Ma un’altra conquista potrebbe essere quella di migliorare i sistemi di traduzione online, che basano le loro traduzioni proprio comparando le diverse lingue; attualmente Google ha un software in grado di tradurre 57 lingue e il sistema utilizzato dal software ideato da Barzilay potrebbe essere adattato per creare lessici per migliaia di altre lingue.

Leave Comment