Seleziona una pagina
23.12.2019

Il futuro è vocale: l’AI cambia il nostro rapporto con dispositivi e servizi

“Voice conversation” come nuovo modello di interazione con i dispositivi, “Voice authentication” come nuova modalità e fattore di accesso ai servizi.

Nel 1962, IBM rilasciò Shoebox, che è stata la macchina di riconoscimento vocale più avanzata del suo tempo, in grado di comprendere 16 parole pronunciate. Oggi si stima che lo sviluppo di tecniche di apprendimento automatico e l’integrazione dei dispositivi connessi con gli assistenti personali porterà il mercato del “Voice & Speech Recognition” a 31,82 miliardi di USD entro il 2025; questo è quanto emerso dal rapporto 2019 di Grand View Research Inc., che espone un CAGR di 17,2% durante il periodo di previsione. Tali valori sono contraddistinti dal crescente impiego delle tecnologie di riconoscimento vocale per applicazioni business e specificatamente nel settore bancario e in quello automobilistico. La Ricerca sottolinea come il riconoscimento vocale sarà una tecnologia basilare anche nel settore sanitario per migliorare i sistemi di cartelle cliniche elettroniche, supportando i medici nella gestione di registri ad interazione vocale, anziché scrittura, rendendoli al tempo stesso più semplici e interoperabili.

Voice Conversation

Il riconoscimento vocale è l’uso di hardware e tecniche basate su software per identificare e processare la voce umana. Viene utilizzato principalmente per convertire parole pronunciate in testo informatico e interagire quindi con un dispositivo interattivo che può fornire accesso a uno o più servizi.

Complice la forte concorrenza tra le differenti soluzioni consumer presenti oggi sul mercato, come gli assistenti virtuali Watson Assistant, Siri, Alexa e Google Assistant, oppure le app come Dragon Anywhere, Swype e Swiftkey, i servizi di sintesi vocale stanno crescendo in termini di performance e affidabilità. Oltre agli assistenti vocali e alle app, oggi le applicazioni più comuni sono correlate ai dispositivi a “mani libere”. Il riconoscimento vocale aiuta, ad esempio, a rendere la guida più sicura abilitando i sistemi di navigazione ad attivazione vocale e le funzionalità di ricerca delle autoradio; molte aziende offrono servizi di call center ad attivazione vocale per una gestione più efficiente delle chiamate.

Il proliferare di sistemi ad interazione vocale è dovuto quindi anche al progressivo miglioramento dei programmi di riconoscimento vocale che utilizzando algoritmi in grado di gestire la modellazione acustica e linguistica con tecniche molto raffinate: la modellazione acustica indica la connessione tra unità linguistiche del parlato e i segnali audio mentre la modellizzazione del linguaggio abbina i suoni con sequenze di parole per distinguere tra parole che suonano simili.

Le soluzioni più avanzate utilizzano l’intelligenza artificiale e l’apprendimento automatico, integrando grammatica, sintassi, struttura e composizione dei segnali audio e vocali per comprendere ed elaborare il linguaggio umano; idealmente, imparano mentre operano ed evolvono le risposte ad ogni interazione.

 

Voice Authentication

Il riconoscimento vocale automatico può essere utilizzato per autenticare gli utenti tramite la loro voce ed eseguire un’azione in base alle istruzioni predefinite a livello di processo.

Essendo la voce un tratto distintivo mutabile e non costante (come invece sono le impronte digitali), per rendere affidabile l’utilizzo di questo dato biometrico nel riconoscimento univoco dei soggetti, è fondamentale oltre che disporre di un ottimo algoritmo di riconoscimento vocale, renderlo adattivo in modo che impari e si aggiorni volta per volta ad ogni riconoscimento effettuato con successo, per essere costantemente in linea con i naturali mutamenti che la voce di una persona subisce.

Vanno tenute in considerazione sia differenze verificabili nel breve periodo (la voce al mattino è leggermente diversa rispetto la sera, così come ci sono differenze di voce rilevabili se una persona risulta essere riposata piuttosto che molto stanca), sia invece cambiamenti che la voce assume nel corso degli anni; é infatti lecito pensare che il riconoscimento vocale di una persona che avviene diversi anni dopo che il sample della stessa voce è stato raccolto, sia più complicato in quanto il segnale vocale può essere effettivamente diverso.

L’impiego di questo dato biometrico come modalità e fattore di autenticazione degli utenti consente di alzare il livello di sicurezza in fase di accesso ad un dispositivo o ad un servizio, riducendo contemporaneamente le possibilità di frode. Sulla scia di ciò, le banche sono in prima fila nell’adozione di soluzioni basate sull’autenticazione biometrica vocale, ad esempio, applicata ai servizi di riconoscimento sui canali telefonici o per consentire l’accesso all’intera gamma di servizi nel proprio conto bancario.

In conclusione, nel medio periodo la lingua diventerà più facile da usare per trovare informazioni, interagire con gli oggetti e accedere in sicurezza a servizi d’ogni genere, sia in consultazione che per attività dispositive. Ciò che limita la crescita del mercato sono l’accuratezza nel riconoscere alcuni accenti e i dialetti regionali ma lo sviluppo continuo di tecnologie e algoritmi avanzati, nonché la modalità di implementazione degli stessi all’interno dei processi di business complessi, stanno avendo una rapida accelerazione con importanti benefici e ricadute sull’intero segmento “Voice & Speech Recognition”. Inoltre, l’analisi del sentiment che utilizza i cambiamenti del tono della voce può consentire lo sviluppo di ulteriori ambiti applicativi, attraendo nuovi capitali di investimento e offrendo ulteriori opportunità di crescita per il settore.

Potrebbero interessarti