From language
To knowledge
Natural Language Processing
Software e risorse per l'elaborazione linguisticaChe cos’è il Natural Language Processing
Natural Language Processing (NLP) è il trattamento informatico (computer processing) del linguaggio naturale, per qualsiasi scopo, indipendentemente dal livello di approfondimento dell’analisi. Per linguaggio naturale si intende la lingua che usiamo nella vita di tutti i giorni, come l’Inglese, il Russo, il Giapponese, il Cinese, ed è sinonimo di linguaggio umano, principalmente per poterlo distinguere da altri linguaggi, come ad esempio il linguaggio dei computer.
Negli ultimi anni, con la nascita del fenomeno mobile internet e in fermento dei nuovi social media, l’uso della lingua scritta sta crescendo esponenzialmente. Oggi abbiamo accesso ad una mole immensa di informazioni codificate in linguaggio naturale, ma solo il software NLP piu’ avanzato è in grado di utilizzarla. La tecnologia di Natural Language Processing di CELI apre la porta a nuove opportunità.
Tecnologie abilitanti per introdurre intelligenza linguistica
CELI progetta e sviluppa componenti software e risorse linguistiche utilizzabili per costruire applicazioni che includono intelligenza linguistica (motore di ricerca semantico, text mining, opinion mining).
Risorse linguistiche
- Raccolte testuali e corpora, generici – per l’addestramento e la valutazione di sistemi NLP – e specifici di dominio
- Lessici morfologici, generici o specializzati: dizionari che contengono le informazioni morfo-sintattiche delle parole
- Vocabolari e reti semantiche formalizzate secondo gli standard del web semantico e compatibili con le linee guida AGID per l’interoperabilità semantica
Moduli software
- Moduli per l’analisi morfologica in diverse lingue
- Moduli di classificazione automatica supervisionata e non supervisionata
- Moduli per l’analisi sintattica e semantica basati su regole – eventualmente personalizzate per applicazioni particolari
- Moduli di estrazione di informazioni da testo libero
- Sistemi ibridi di analisi simbolica/statistica, per il miglior bilanciamento tra precisione e robustezza in ambiti con ampia variabilità linguistica
- Sistema di sentiment analysis e opinion mining su argomenti, prodotti, marchi
- Motore di ricerca semantico per aumentare il valore d’uso dei contenuti
- Moduli per il riconoscimento automatico di named entities (nomi propri, luoghi, ecc.)
- Sistemi di text processing per la trascrizione fonetica
Lingue supportate
Italiano, Inglese, Francese, Spagnolo, Catalano, Portoghese, Tedesco, Olandese, Svedese, Norvegese, Finlandese, Danese, Polacco, Russo, Bielorusso, Estone, Lettone, Lituano, Ucraino, Greco, Turco, Arabo, Ebraico, Armeno, Albanese, Croato, Serbo-Croato, Ceco, Slovacco, Sloveno, Rumeno, Bulgaro, Ungherese, Cinese, Giapponese.
