From data
To meaning

Assistenti vocali, smart speaker ed ogni sorta di tecnologia cosiddetta “vocale” o “voice-first” hanno avuto crescita e tassi di adozione notevoli nel corso degli ultimi anni. 

Secondo Voicebot.AI, la base di installazione degli smart speaker negli Stati Uniti è cresciuta del 40% dal 2018 al 2019, superando ora i 66 milioni di unità. I mercati internazionali sono cresciuti in modo ancora più marcato: l’adozione olandese di altoparlanti intelligenti è esplosa dallo 0% al 5% in soli quattro mesi e mezzo, ad esempio, senza alcun segno di rallentamento.

CELI, la company di Artificial Intelligence di H-Farm, da sempre attenta alle nuove tecnologie legate a linguaggio e voce, ha recentemente realizzato una ricerca sull’adozione degli smart speaker in Italia, in collaborazione con Kkienn. Tale ricerca ha rilevato che l’adozione degli smart speaker tra i consumatori italiani online ha già raggiunto il 13%. Ricordiamo che Google Home è stato introdotto in Italia nel marzo 2018, mentre Amazon Alexa è stata lanciata solo nell’ottobre dello stesso anno.

Amazon Echo risulta essere leader di mercato con una penetrazione del 53% contro il 43% di Google Home, nonostante Alexa sia giunta in Italia sei mesi dopo lo smart assistant di Mountain View. In altri mercati, il first mover ha in genere ottenuto un forte vantaggio in termini di quota di mercato.

Assistenti vocali: che cosa sono?

Gli assistenti vocali sono dei sistemi basati sull’Intelligenza Artificiale e sul Machine Learning in grado di interagire nella maniera più naturale possibile con le persone attraverso dei comandi vocali. Grazie alle tecnologie di riconoscimento vocale (Automatic Speech Recognition) sono in grado di riconoscere le parole pronunciate. Grazie alle tecnologie di comprensione del linguaggio naturale (Natural Language Understanding), comprendono quanto detto dall’utente e lo tramutano in una azione.  Si vengono quindi a creare dei circuiti complessi che permettono agli esseri umani di interagire in linguaggio naturale, a voce, con le macchine.

CELI assistenti vocali che cosa sono

Il Dialogue manager, come un vigile urbano che gestisce il traffico, si occupa di controllare il flusso della conversazione e di far entrare in azione i vari componenti del sistema di dialogo al momento opportuno. Un Dialogue manager che funzione bene permette a ogni utente di portare a termine il proprio obiettivo tramite una conversazione efficiente.

Un altro componente importante è detto Text-to-Speech System (TTS). Un TTS è un software che si occupa di trasformare il testo scritto, ricevuto in input, in una sua rappresentazione linguistica e/o fonetica; quest’ultima, eventualmente arricchita di altre informazioni linguistiche (come, ad esempio, informazioni su prosodia, pause ed intonazione), viene passata ai componenti successivi, i quali, a loro volta, la elaborano, ricostruendo la corrispondenza tra la rappresentazione simbolica del suono e il suono stesso. L’output finale è una vocalizzazione del testo originariamente acquisito in input dal TTS.

Invece, grazie al Machine Learning sono anche in grado di imparare e di migliorare le loro abilità nel corso del tempo. 

Oggi gli assistenti vocali reagiscono ad un preciso comando scegliendo tra un set di risposte/soluzioni preconfigurate. Nei sistemi più raffinati le risposte possono basarsi anche sulle abitudini degli utenti che l’assistente vocale ha iniziato a conoscere.

Assistenti vocali: un po’ di storia

La rivoluzione che stanno portando le tecnologie voice-first richiede di ripensare a tutto, come già accadde in passato con il web, con i social e con il passaggio alle tecnologie mobile.

Fonte: Luminary Labs

Con ogni ondata di disruption, le aziende cercano partner esterni per aiutarle a comprendere le opportunità a disposizione. Man mano che la tecnologia matura, le aziende sviluppano competenze interne. Oggi la maggior parte delle aziende ha assunto personale a tempo pieno dedicato a SEO, social e mobile. Probabilmente alcune di esse hanno anche sviluppato una infrastruttura tecnologica di supporto. Tra qualche anno accadrà lo stesso per le tecnologie vocali.

Come dicevamo in precedenza, la tecnologia di riconoscimento vocale è il cuore degli assistenti vocali, senza la quale essi non potrebbero nemmeno esistere.

La sua prima implementazione risale al 1952, quando fu costruito Audrey (Automatic Digit Recognizer), un dispositivo per il riconoscimento di singole cifre parlate. Nel 1964, al Salone di New York, IBM presentò invece Shoebox, una sorta di calcolatore controllabile attraverso comandi vocali. Le persone potevano risolvere piccoli calcoli direttamente comunicandoli all’apparecchio attraverso un microfono. Durante gli anni settanta si studiò sempre con maggiore attenzione questa tecnologia, ma fu a partire dagli anni ottanta che vennero fondate le prime grandi corporation che si occuparono di riconoscimento vocale.

Nuance Communication, la più grande multinazionale al mondo ad occuparsi di tecnologie vocali, lanciò la sua prima applicazione vocale per automatizzare i contact centre nel 1996. 

L’evoluzione del riconoscimento vocale si fece sempre più rapida. Accanto ad alcuni player storici come Nuance entrarono ben presto in scena anche giganti del calibro di Amazon, Apple, Google e Microsoft. Tra alcune delle implementazioni più famose del recente passato del riconoscimento vocale, si ricordano quelle presenti in Windows XP nel 2001 e in alcuni primi cellulari degli anni 2000 che permettevano la dettatura vocale degli SMS o riconoscevano i nomi della rubrica, consentendo alle persone di avviare le chiamate con la voce.

Ma la vera rivoluzione arriva con il machine learning e l’intelligenza artificiale, che hanno permesso di migliorare drasticamente l’efficienza del riconoscimento vocale rendendo possibile la nascita dei veri e propri assistenti vocali.

Siamo ancora nella fase iniziale dello sviluppo delle tecnologie vocali: la ricerca si concentrerà sempre di più sulla comprensione del linguaggio per rendere i dialoghi tra uomo e macchina sempre più naturali.

Hai bisogno di un consiglio per realizzare un progetto voce? Scrivici!

Accetto le condizioni di privacy di cui ho preso visione