E11_anteprimaSito_approfondimento

Assistenti vocali: dalle loro origini ad oggi

Un assistente virtuale è un software che interpreta il linguaggio naturale (Natural Language Processing) e, se opportunamente addestrato, può dialogare con degli interlocutori umani allo scopo di fornire informazioni o compiere determinate operazioni.

I primi macchinari che possiamo ricondurre a quello che oggi sono gli assistenti vocali, sono le macchine di dettatura. Nel 1877, Thomas Edison inventò il fonografo. Sostanzialmente, il fonografo era costituito da una puntina che, in risposta alla pressione prodotta dalle vibrazioni sonore emesse “dall’utente”, incideva delle scanalature su un cilindro rotante ricoperto da uno strato di carta di alluminio. Una volta inciso, il cilindro rotante poteva essere ascoltato, tramite una puntina, facendolo roteare in modo contrario, sostanzialmente come i giradischi di oggi. La qualità della registrazione era molto bassa, ma questo primo dispositivo gettava le prime basi di quello che sarebbe diventato l’assistente vocale: aveva, infatti, la capacità  di registrare il parlato e riprodurlo.

Assistenti vocali: dalle loro origini ad oggi
Fonografo di Thomas Edison

Alexander Graham Bell, nel 1886, migliorò la tecnologia di Edison sostituendo al cilindro il foglio di alluminio con della cera. Questo permise registrazioni più lunghe, ed una qualità maggiore della riproduzione del parlato.

2
Fonografo di Alexander Graham Bell

Ma, per avvicinarci davvero a quelli che sono gli assistenti vocali di oggi, dobbiamo aspettare il 1952, anno in cui fece il suo debutto Audrey, prodotto da Bell Laboratories.  

Audrey sta per Automatic Digit Recognizer: un macchinario alto 1,80 metri circa che aveva la capacità di riconoscere i numeri dallo 0 al 9. Per farlo, era necessario che l’utente facesse una pausa tra un numero e l’altro, e che si facessero delle “prove di parlato” per adattare Audrey alla vocalità dell’utente. Teoricamente, Audrey poteva essere applicato per la composizione, o digitazione, di scale numeriche senza mani, ma le sue dimensioni, il suo prezzo, ed i costi di manutenzione non permisero ad Audrey di essere applicato in massa. Infatti, risultava più veloce ed efficiente digitare i numeri a mano. Tuttavia, questa invenzione fu la base fondante di quello che oggi viene definito “riconoscimento vocale” : tecnologia alla base degli assistenti vocali.

Assistenti vocali: dalle loro origini ad oggi
Automatic Digit Recognizer

Facendo un passo avanti, IBM, nel 1962, introdusse per la prima volta alla World Fair di Seattle, Shoebox: il primo calcolatore ad attivazione vocale. Era capace di capire 10 cifre e 6 parole (più, meno, totale, subtotale, falso e spegni). Shoebox, collegato ad una calcolatrice, era quindi in grado di risolvere semplici operazioni matematiche. Come Audrey, questo macchinario riconosceva ed agiva sulle frequenze vocali emesse dall’utente. La vera novità però era la capacità di svolgere delle azioni sulla base degli input raccolti: altro tassello fondamentale nella strada verso l’invenzione degli assistenti vocali.

Assistenti vocali: dalle loro origini ad oggi
Shoebox di IBM

Quasi 10 anni dopo, nel 1971, la Defense Advanced Research Projects Agency (DARPA) finanziò un progetto quinquennale di riconoscimento della parola svolto dalla Carnegie Mellon University. Questo studio portò al lancio di Harpy (1976). Harpy poteva contare su un vocabolario di 1.011 parole ed era in grado di comprendere anche intere frasi, riuscendo a distinguere le diverse parole che vanno a comporre una frase. Harpy poteva elaborare un discorso che seguisse le strutture grammaticali, il vocabolario e le pronunce pre-programmate. Uno degli aspetti più affascinanti di Harpy, ma soprattutto quello che lo avvicina di più agli assistenti vocali che tutti conosciamo , era che Harpy restituiva il messaggio “non so cosa hai detto, per favore ripeti” quando non riusciva a capire l’utente. Qui potete vedere un video del funzionamento di Harpy.

Nel 1986, IBM introdusse una versione aggiornata di Shoebox, Tangora. Il nome rende omaggio ad Albert Tangora, che negli anni ’80 aveva stabilito il record come dattilografo più veloce del mondo. Tangora, come Shoebox, era connesso ad un dispositivo, ma questa volta, invece di essere collegato ad una calcolatrice, era collegato ad una macchina da scrivere. Tangora poteva riconoscere circa 20.000 parole, ma la vera peculiarità stava nel fatto che il macchinario poteva prevedere il risultato più attendibile, basandosi su ciò che aveva interpretato fino a quel momento.  

Assistenti vocali: dalle loro origini ad oggi
Tandora – versione aggiornata di Shoebox

Infine, per una vera e propria commercializzazione di sistemi di riconoscimento vocale, dobbiamo aspettare gli anni ‘90 e l’arrivo del software NaturallySpeaking di Dragon.  Lanciato nella sua prima versione nel 1997, era in grado di riconoscere e trascrivere il parlato umano naturale (gli utenti non dovevano fare una pausa tra una parola e l’altra) in un documento digitale, al ritmo di 100 parole al minuto. Questo software costava poco meno di 700 USD, il che lo rendeva ”accessibile” rispetto ai precedenti dispositivi di riconoscimento vocale. Oggi, il software lanciato da Dragon è ancora in vendita nelle sue versioni aggiornate.

Fino a qui, tutte le basi fondamentali di quello che sarebbero diventati gli assistenti vocali erano state gettate. Ma la realizzazione definitiva fu possibile solo con lo sviluppo dell’intelligenza artificiale e del machine learning.

Riassumiamo dunque il funzionamento di un assistente vocale moderno in tutti i suoi step:

  • l’assistente si attiva quando riceve  un comando vocale specifico: la cosiddetta “hot word”, nel caso di Amazon “Alexa”;
  • ricevuto l’input audio identifica le parole attraverso la tecnologia di Automatic Speech Recognition;
  • una volta identificate le parole, applica il Natural Language Understanding per attribuire un significato all’audio, ovvero capire cosa vuole “l’assistito”;
  • a questo punto, il software si avvale delle diverse applicazioni, o meglio “skills”, disponibili nel cloud per svolgere il compito che gli è stato assegnato ad (ex. utilizza l’applicazione del meteo per dare informazioni sul tempo);
  • infine, l’assistente vocale deve dar “voce” alla risposta individuata. Per farlo utilizza un motore di sintesi vocale  “Text to Speech” che produce a partire da un contenuto scritto il risultato della ricerca con una voce naturale.

A questo punto, probabilmente vi starete chiedendo in che fase intervengono l’Intelligenza Artificiale e il Machine Learning. La risposta è multipla, infatti, sono proprio queste tecnologie che consentono agli assistenti vocali di: reagire ad un preciso comando scegliendo tra un set di risposte/soluzioni preconfigurate, di imparare e di migliorare le loro abilità nel corso del tempo e nei sistemi più raffinati basare le risposte sulle abitudini degli utenti che l’assistente vocale ha iniziato a conoscere.

L’ultimo decennio può essere definito “l’era moderna” degli assistenti vocali, a partire dalla nascita di Siri: l’assistente vocale di Apple. Nel 2011, Apple, per prima, decise di aggiungere un assistente vocale ad un suo smartphone, l’iPhone 4S, iniziando a offrire ai suoi utenti una modalità di interazione completamente vocale: pianificare appuntamenti, riprodurre musica, cercare informazioni, eseguire altre attività di base diventò possibile semplicemente dialogando con il telefonino. Grazie a questa integrazione nei dispositivi mobili di casa Apple, Siri è stata la prima tra gli assistenti vocali a raggiungere un pubblico di massa. Altri assistenti come Google Now e Cortana di Microsoft hanno presto fatto seguito.

Assistenti vocali: dalle loro origini ad oggi
Schermata di Siri (Apple)

Sempre nello stesso anno, Google introdusse la ricerca online vocale: divenne possibile utilizzare il microfono del computer per ricercare un contenuto a voce su Chrome, sfruttando le funzionalità di sintesi vocale all’interno di Google Search. Successivamente anche in casa big G venne presentato l’ormai celebre Assistente Google, integrato in tutti i dispositivi Android, che dispongono di default dei servizi Google.

Nel 2014 assistiamo ad un’altra grande rivoluzione nel mondo degli assistenti vocali: Amazon introduce Alexa, e con essa viene presentato lo speaker intelligente Echo. E’ la nascita degli smart speaker: un altoparlante intelligente stand-alone. Quel giorno nasce un vero e proprio mercato competitivo degli assistenti vocali, con Google ed Apple che rispondono alla sfida di Amazon presentando rispettivamente Google Home e Apple HomePod. Questi smart speaker, installati nelle case, sono in grado di interagire anche con dispositivi esterni permettendo alle persone di poter controllare con la voce i dispositivi di domotica: gli elettrodomestici, le luci, il termostato, ma anche i sistemi di sicurezza. Qualsiasi dispositivo di ultima generazione con un collegamento WiFi può essere controllato dall’assistente vocale presente nell’altoparlante, dando la possibilità di gestire le abitazioni letteralmente a voce.

Assistenti vocali: dalle loro origini ad oggi
Amazon Echo

Da allora il mercato degli smart speaker è in costante crescita esponenziale: secondo i risultati della recente ricerca di Strategy Analytics le vendite globali di smart speaker nel primo trimestre 2020 hanno raggiunto i 28,2 milioni di unità, con un incremento dell’8,2% rispetto al primo trimestre del 2019.

Amazon, secondo Statista, si conferma essere il brand leader in questo settore, con una quota di mercato del 23,5% nel mondo. Secondo gli analisti di Canalysis entro la fine del 2020 si toccherà quota 320 milioni di smart speaker attivi nel mondo, cifra destinata a raddoppiare entro il 2024: numeri esorbitanti che sottolineano l’importanza che questi piccoli assistenti vocali stanno assumendo nella quotidianità delle persone.

Ma la storia degli assistenti vocali è solo agli inizi: secondo Hej!, la digital innovation agency che applica l’intelligenza artificiale alla conversazione, gli utenti inizieranno a cambiare il loro modo di interagire e la voce diventerà il primo attivatore di sistemi digitali. Quando le tecnologie saranno più evolute, saranno in grado di fornire esperienze veramente complete: non saranno più gli utenti a richiedere l’aiuto di questi sistemi ma saranno gli assistenti che inizieranno a suggerire, in modalità predittiva, agli utenti cosa fare in determinate circostanze. 

Le applicazioni pratiche degli assistenti vocali sono, dunque, quasi infinite e negli anni a venire grazie ad essi si assisterà ad una vera e propria rivoluzione in ogni ambito economico e sociale, mentre la ricerca si concentrerà sempre di più sulla comprensione del linguaggio per rendere i dialoghi tra uomo e macchina sempre più naturali. Non potranno mai sostituire le conversazioni umane, questo è certo, ma sicuramente saranno sempre più utili per aiutarci nel nostro quotidiano.

Per non perdervi i prossimi viaggi alla scoperta delle tecnologie che stanno rivoluzionando il nostro quotidiano, iscrivetevi alla nostra newsletter qui.

Condividi questo articolo