From language
To knowledge

Machine Learning

Comprensione automatica per la soluzione di problemi

Cos’è il Machine Learning

Il Machine Learning è lo studio, la costruzione e la combinazione di algoritmi per automatizzare lo svolgimento di compiti e la risoluzione di problemi.
Si tratta di un ambito con forti legami teorici con la statistica computazionale; spesso in ambito industriale è noto come predictive analytics o predictive modelling; è un componente fondamentale dell’Intelligenza Artificiale.
La distinzione più importante all’interno dei metodi di Machine Learning è fra algoritmi supervisionati e non supervisionati.

 

Addestramento supervisionato

Vengono forniti al computer esempi di input con l’output desiderato; otteniamo così dei modelli statistici o delle regole generali che consentono di analizzare nuovi documenti ed ottenere i risultati che si cercano. In un certo senso è come se alla macchina venga insegnato il comportamento intelligente della persona, quando svolge un compito preciso.
Nel Natural Language Processing usiamo il Machine learning supervisionato nei casi seguenti:

  • Classificazione Automatica: assegnare in modo automatico ai documenti in input le categorie definite dall’utente, in base alle somiglianza con gli esempi di documenti classificati a mano precedentemente. Esempi di casi d’uso: classificare i survey o le email secondo la tassonomia definita dal cliente.
  • Named Entity Recognition: capire e annotare correttamente luoghi, persone e organizzazioni che sono menzionate in un testo, disambiguando il riferimento quando è necessario. Ad es. Torino è una città e una squadra di calcio,
  • Text To Speech Translation.
  • Modelli di regressione e di causalità che rappresentino legami fra testo e altre variabili, ad esempio le reazioni su Twitter in risposta alla condivisione di contenuti virali o URI.

 

Addestramento non supervisionato

In questo caso non vengono forniti alla macchina dati già elaborati, cioè annotati a mano per fare l’apprendimento in modo corretto. L’algoritmo deve estrarre autonomamente, cioè far emergere, strutture di interesse, basandosi solo su criteri generali. Il problema di estrarre pattern o schemi ricorrenti nei dati viene spesso affrontato nel contesto della cluster analysis, forse l’ambito più noto dell’apprendimento automatico non supervisionato. I risultati di una procedura non supervisionata possono essere definitivi oppure fornire un punto di partenza (pre-elaborazione) per analisi più sofisticate.

L’obiettivo della cluster analysis è fornire una classificazione informativa di un insieme di elementi (potrebbero essere documenti o clienti di un’azienda) senza che le informazioni su questa classificazione siano già note.
La cluster analysis è popolare perché fornisce una prima chiave di lettura di un dataset del quale potenzialmente si sa poco (in quanto nuovo, molto grande o dotato di molte variabili).
Abbiamo maturato esperienza nella segmentazione di dati strutturati (quindi più “tradizionali”), quali:

  • Dati transazionali e contrattuali, che racchiudono la propensione a certi tipi di offerta;
  • Dati comportamentali, come sondaggi, ma anche registri di visite a siti web.

Questa, combinata con tecniche allo stato dell’arte nell’ambito Natural Language Processing, ci ha permesso di definire procedure personalizzate di topic detection all’interno di documenti testuali (non strutturati). La nuova sfida in questo caso è rappresentata dall’elevata dimensionalità del problema (ogni parola è in realtà una variabile diversa) e dal fatto che l’intelligenza umana gioca sempre un ruolo fondamentale nel capire cosa un frammento di testo (magari scritto in slang come un Tweet) significhi, se sia importante oppure no.
Poniamo molta enfasi in una fase di validazione successiva all’estrazione automatica di informazioni, che metta l’utente in condizione di decidere quali rappresentino vera conoscenza e quali no.

Contattaci per una demo






Autorizzo il trattamento dei miei dati personali secondo la normativa sulla privacy ai sensi dell’Art. 13 D.LGS 30/06/2003, n.196 e ai sensi del D.lgs. 196/2003 e successivi