"Hey Google! riconosci la mia voce?"

Cos’è

Molti di noi, all’interno delle nostre case, possiedono dispositivi che in diverso modo riconoscono la voce (Alexa, Google Home, Siri, Cortana) e quindi capiscono i discorsi e le richieste che facciamo loro per ascoltare musica, riprodurre film o richiedere informazioni sulle previsioni del tempo. Questi dispositivi si basano su reti neurali artificiali che offrono al sistema la possibilità di apprendere e migliorare sé stessi attraverso l’utilizzo. Le aziende tech hanno cominciato a creare e diffondere questi sistemi per favorire l’interazione uomo-macchina, e il report 2019 di Microsoft parla proprio di quanto spazio si stiano prendendo questi dispositivi nella nostra vita quotidiana (il 76% degli intervistati ha usato assistenti vocali negli ultimi 6 mesi). Ma al di là del prodotto commerciale e delle possibilità che offre a soggetti non vedenti o con altre disabilità correlate, è sicuramente rilevante considerare il rovescio della medaglia: se applicati nello spazio pubblico per monitorare, identificare, e riconoscere le persone rischiano di violare la nostra privacy e possono introdurre ulteriori discriminazioni.

Come funziona

Il riconoscimento vocale può avere diversi scopi: comprendere il significato di quello che stiamo dicendo, riconoscere la voce di una persona che parla e collegarla ad altri audio, oppure cercare di estrarre informazioni sulle emozioni provate dalla persona partendo dalla sua voce. Le nostre voci sono completamente diverse l’una dall’altra: basti pensare al timbro della nostra voce e quella delle nostre persone care. In generale, il funzionamento di un sistema di riconoscimento vocale si basa su un modello matematico che viene elaborato a partire da un database creato in fase di addestramento del sistema. L’algoritmo cerca di individuare le parole che pronunciamo e, per comprenderle, le compara con le parole simili per suono e contenuto all’interno del database utilizzato, oppure quelle che mostrano le stesse caratteristiche fonetiche. Così come nel caso approfondito nella scorsa settimana, anche qui è necessario porre l’attenzione sul database creato per il matching ovvero tenere in considerazione che è da questo che dipende la comprensione o meno dei nostri discorsi. Se dunque il database di un sistema di riconoscimento facciale è allenato solo su individui maschi e bianchi (e quindi l’algoritmo non riconosce alternative), stessa cosa succede per la voce: alcuni studi hanno dimostrato che questi sistemi hanno problemi con accenti e pattern linguistici di persone che appartengono a minoranze o gruppi in generale sottorappresentati nelle nostre società. Oltre a ciò il punto principale che rende questi software invasivi nella nostra vita quotidiana è sicuramente l’impatto sulla privacy.

Hai già firmato la petizione per bannare la sorveglianza biometrica in Europa?
Riprenditi la faccia, siamo già in più di 10.000!

Ritornando a quanto detto inizialmente, sappiamo ad esempio che in attesa della parola d’ordine impartita (Hey Google, Alexa) i sistemi di riconoscimento vocale sono in perenne funzionamento e monitorano le nostre azioni: Amazon ha dichiarato come Echo sia in ascolto costante ma non registri ciò che avviene prima che l’utente effettivamente pronunci la parola magica. Tuttavia è ancora possibile che accidentalmente alcune parole siano confuse e possano portare al “risveglio” del software e dunque alla registrazione di conversazioni private che tutti vorremmo rimangano tali. A nessuno piacerebbe infatti essere ascoltato da una persona estranea in casa nostra, e ci sono anche prove a sostegno dell’ipotesi che ad esempio Alexa non cancelli effettivamente le conversazioni registrate anche se l’utente ne richiede la cancellazione.

Alcuni studi stanno testando la possibilità di riconoscere determinati rumori negli spazi pubblici, soprattutto nell’ottica di potenziare la sorveglianza nelle smart city e nelle cosiddette safe city—di fatto affermando già all’inizio gli scopi di questa tecnologia. Da considerare è infatti la possibilità che questo tipo di tecnologia, utilizzata ad esempio per intercettare il posto in cui è stato esploso un colpo di arma da fuoco, possa essere combinata insieme ad altre, non ultimo il riconoscimento facciale. Pensare di trovarci di fronte ad un sistema che potrebbe monitorare la nostra presenza quando ci muoviamo in città rischia di ricreare gli stessi pericoli di cui già abbiamo parlato proprio nel caso del riconoscimento dei volti: essere pedinati costantemente perché un orecchio elettronico è in grado di riconoscere la nostra voce.

Inoltre, sempre più rilevante è anche la questione delle emozioni. Una delle capacità più importanti dell’uomo è quella di riconoscere ed interpretare gli aspetti emotivi legati alle conversazioni e ai contenuti che ci scambiamo. In questi ultimi anni numerosi sono gli studi che cercano di sondare la possibilità di creare dispositivi che siano in grado di riconoscere, in tempo reale ed efficientemente, le emozioni dell’utente che interagisce con essi (un telefono, un computer ma anche un’automobile).