From data
To meaning

Il meeting internazionale dell’Association for Computational Linguistics (ACL 2019) ha raccolto a Firenze oltre 2000 ricercatori da tutto il mondo. Quali sono i temi più citati quest’anno? Deep learning, neural networks e word embeddings, come ci si poteva aspettare, applicati in contesti multilingue. BERT, ad esempio, è protagonista di molti degli articoli scientifici e dei sistemi di Natural Language Processing (NLP) presentati al convegno.

Durante la cerimonia degli ACL Awards, il vincitore Ronald Kaplan inizia però inaspettatamente la sua lezione sulla Computational Psycolinguistics partendo dagli “Aspects of the theory of Syntax” di Noam Chomsky del 1965 e dal tema della competenza e della performance linguistica. Ripercorre alcune tappe fondamentali nella storia della linguistica computazionale: Augmented Transition Networks, Hierarchical attribute-value matrices, functional structures and feature structures, e altre tecniche utilizzate in passato nel Natural Language Processing (NLP) sono solo apparentemente distanti dalle tecniche attuali basate prevalentemente sul machine learning. La modellazione della competenza e della performance linguistica, cioè la creazione di un “reasonable model of language use” (Chomsky 1965), rimane sempre l’obiettivo centrale della linguistica computazionale, disciplina che sta raggiungendo l’apice della sua diffusione.

Il convegno ACL 2019 riunisce i ricercatori delle università e delle aziende che si occupano di Natural Language Processing in tutto mondo. Partecipano grandi aziende come Baidu, Tencent, Facebook, Microsoft, Apple, IBM, Naver, Bloomberg, Salesforce, Bosch, Amazon, Samsung, ecc, ma anche aziende meno grandi che fanno ricerca da anni in questo settore. Si incontrano i ricercatori delle più importanti università di Europa, USA, Canada, sud America, Russia, Cina, Corea e altri paesi del sud-est asiatico, paesi dell’Africa, India, Australia, ecc. Questa 57-sima edizione ha il maggior numero di partecipanti nella storia di ACL. Il convegno si svolge in Italia per la prima volta, anche grazie al contributo dell’Associazione Italiana di Linguistica Computazionale (AILC), di cui facciamo parte. 

Quali sono i principali settori di indagine presentati quest’anno al convegno? Dialogue and Interactive Systems, Sentence-level Semantics,  Machine Translation, Information Extraction and Text Mining, Sentiment Analysis, Multilinguality, Question Answering, ecc, ovvero quasi tutti gli ambiti del Natural Language Processing.

Una parte consistente delle sessioni si concentra sul Dialogo: come interpretare correttamente le domande, come produrre delle risposte in linguaggio naturale che rispecchino il tono della conversazione, come portare avanti lo small talk ma anche come fornire informazioni e aiutare gli utenti ad ottenere ciò che vogliono.

Insomma, come capire e modellare efficacemente il dialogo umano così da riprodurlo attraverso le macchine. In questo campo, i centri di ricerca cinesi (Beijing University, Huazhong University, Chinese Academy of Sciences, ecc) sembrano ottenere i migliori risultati rispetto alle baseline dettate da precedenti studi. Il loro successo è sicuramente dovuto anche dalla grande mole di dati di cui dispongono: Tencent e Baidu sono importanti aziende di comunicazione nonché partner onnipresenti nei talk più rilevanti.

La forte presenza cinese non intacca però i baluardi delle grandi aziende occidentali. Google AI e Microsoft continuano a investire nella ricerca e raccolgono i frutti dei loro prodotti commerciali già implementati da tempo. Ad esempio il team Microsoft di Hyderabad (India) analizza in profondità i risultati di “Ruuh”, un assistente conversazionale open-ended, per restituire alla comunità scientifica e industriale le best practices e lessons learned nel costruire un’interfaccia di dialogo. 

Non sono mancati i lavori sulle lingue low-resource, soprattutto grazie al Fourth Arabic Computational Linguistics Workshop, a cui abbiamo partecipato. I ricercatori del mondo arabofono si sono incontrati per discutere le sfide che riguardano le tecnologie NLP e la lingua araba, condividere le intuizioni avute ed esplorare possibili soluzioni. Alcuni dei problemi più rilevanti includono la scarsezza di dati, specialmente nel caso dei dialetti, dove non esistono convenzioni standardizzate per la scrittura, così come in caso di code-switching fra una o più varianti di arabo, o fra l’arabo e altre lingue (arabo e inglese in alcuni paesi, oppure arabo e francese). L’Università americana di Beirut ha presentato un language model chiamato “hULMonA” o Our Dream (The Universal Language Model in Arabic). “hULMonA” è un modello già pre-allenato che utilizza enormi corpora di arabo standard. Il modello impiega inoltre MADAMIRA (un tool specifico per l’analisi morfologica e la disambiguazione in arabo) per tokenizzare le frasi in input, in alternativa al modello multilingue pre-allenato WordPiece utilizzato in BERT. Grazie a questa modifica “hULMonA” ottiene una migliore performance di BERT in alcuni task di classificazione. 

Articolo di Andrea Bolioli, Francesca Alloatti e Milad Botros.