From data
To meaning

Nuovi sviluppi del Natural Language Processing multilingue basato sull’apprendimento automatico

Esiste una grammatica universale di tutte le lingue del mondo? Quando fa traduzione automatica tra tutte le lingue, Google usa informazioni linguistiche? Dopo molti anni di ricerche, si stanno consolidando dei metodi per apprendere automaticamente le strutture linguistiche delle diverse lingue secondo principi generali comuni, applicabili ai diversi task di Natual Language Processing.

Questi sono i temi che hanno animato il dibattito durante il seminario-aperitivo condotto da Chiara Albano e Milad Botros, incentrato sul progetto “Universal Dependencies”. I due linguisti computazionali di CELI hanno presentato ai colleghi il contenuto dell’interessante lecture tenuta dal prof. Marco Passarotti alla quale hanno partecipato in occasione della terza edizione delle “Lezioni di Linguistica Computazionale” presso l’Università di Pavia. L’iniziativa, sponsorizzata dall’Associazione Italiana di Linguistica Computazionale (di cui CELI è sostenitrice), ha visto la partecipazione di studiosi di fama internazionale che sono intervenuti sui temi fondanti e le sfide attuali nel campo del Natural Language Processing, tra linguistica, informatica e Digital Humanities.

 

Che cosa sono le “Universal Dependencies”? Si tratta del progetto di linguistica computazionale più importante degli ultimi anni: iniziato nel 2014, vi partecipano più di 200 collaboratori da università e aziende di tutto il mondo e finora ha preso in esame oltre 60 lingue diverse, dall’inglese all’arabo, dall’italiano al cinese, dal turco al lituano. Le risorse linguistiche computazionali elaborate nel progetto costituiscono la base del Natural Language Processing multilingue, cioè servono per addestrare i sistemi NLP di POS tagging, dependency parsing, information extraction, tramite apprendimento automatico. La sfida di questo progetto è sviluppare un metodo corretto per ogni singola lingua e fare in modo che sia efficace su lingue anche molto diverse tra loro.

Ci troviamo quindi di fronte a una rielaborazione della teoria della Grammatica Universale di Chomsky? Negli anni ‘60 il celebre linguista statunitense ipotizzava l’esistenza di una struttura di base comune a tutti i linguaggi. “Universal Dependencies” riprende questo principio, affrontandolo con un approccio non solo speculativo, che sfrutta i dati reali disponibili (cioè i corpora delle lingue) e le tecnologie dell’Intelligenza Artificiale e dell’apprendimento automatico.

Italiano, inglese, cinese, arabo, lituano, norvegese, persiano, tagalog sono lingue diversissime agli occhi degli esseri umani, ma le loro somiglianze emergono ancor più delle differenze grazie alla linguistica computazionale e all’apprendimento automatico. Per una macchina adeguatamente addestrata le lingue sono simili e facili da imparare, perché vengono ricondotte a modelli generali e condivisi.

Tags: , ,