Nessun calcolatore 9000 ha mai commesso un errore o alterato un’informazione. Noi siamo, senza possibili eccezioni di sorta, a prova di errore, e incapaci di sbagliare

Lo pronuncia HAL 9000, il supercomputer di bordo della nave spaziale Discovery nel film 2001: Odissea nello spazio di Stanley Kubrick e dell’omonimo libro di Arthur C. Clarke. Il suo nome è l’acronimo per Heuristic ALgorithmic” (“algoritmo euristico”).

E la predizione su un futuro di computer autonomi al servizio degli esseri umani sta diventando reale.

Il campo dell’intelligenza artificiale e del deep learning, infatti, sono in costante crescita nell’ultimo periodo e il trend continuerà ad espandersi, grazie a forti investimenti che importanti società come Google stanno stanziando per le ricerche in questo settore.

Dopo algoritmi in grado di interpretare le emozioni umane, Google sta per lanciare una tecnologia capace di leggere le labbra delle persone. Il progetto ideato per perfezionare un software capace di leggere il labiale, è seguito da DeepMind, l’azienda londinese specializzata in progetti di Artificial Intelligence e machine learning, acquisita da Alphabet (Google) nel 2014, in collaborazione con l’Università di Oxford. Scopriamone subito i dettagli!

Watch, Listen, Attend, and Spell: Google impara dalla tv!

Il progetto di Artificial Intelligence (AI) ha applicato il “deep learning”, ossia la tecnologia d’apprendimento automatico che mima il comportamento dei neuroni umani, ad un’immensa quantità di dati rilevanti.

La ricerca è stata divisa in due fasi: il team di studiosi prima ha “piazzato” il software davanti ad uno schermo televisivo, facendogli osservare 5 mila ore di trasmissioni di sei differenti show della Bbc, andati in onda tra gennaio 2010 e dicembre 2015. Nella seconda fase, poi, l’ abilità del software è stata testata su show popolari in Gran Bretagna, trasmessi da marzo a settembre 2016, come Newsnight, Question Time e World Today.

Il training chiamato “Watch, listen, attend and spell” ha previsto l’elaborazione di circa 118 mila frasi e di 17.500 parole uniche.

Su 200 frasi scelte a caso, il software ha letto correttamente ogni singola parola nel 46,8% dei casi e ha individuato in maniera esatta, nella metà dei casi, quanto pronunciato da una delle persone inquadrate sullo schermo, analizzandone esclusivamente il movimento delle labbra, senza basarsi sull’audio di quanto pronunciato.

Se pensate che i professionisti di questa disciplina sono arrivati nei test solo al 12,4% (ovvero poco più di una parola su dieci), l’efficienza del software appare più sorprendente!

I ricercatori di Google e di Oxford hanno pubblicato i risultati del proprio lavoro scientifico congiunto su Arxiv nel documento “Lip Reading Sentences in the Wild“, in cui spiegano l’obiettivo dello studio:

riconoscere frasi ed espressioni, indipendentemente dal fatto che ci sia o meno l’audio. Rispetto ai lavori precedenti, la lettura labiale è stata testata con video spontanei”, cioè non studiati in laboratorio ma provenienti dal mondo esterno.[… ] Lo studio indica anche alcune possibili applicazioni di una tecnologia come questa: ad esempio, trascrivere con facilità film muti, sottotitoli per non udenti, interi eventi e conferenze confusionarie.

In futuro con Deepmind si potrebbero, inoltre, impartire comandi silenziosi agli assistenti digitali come Siri, Cortana o Google Assistant semplicemente muovendo le labbra e parlando sottovoce. Una videocamera integrata nel ricevitore potrebbe capire in tempo reale quello che l’utente sta dicendo e avviare l’azione richiesta.

E pensate poi, cari amici Ninja, alla possibilità offerta da un simile software di “ascoltare” le conversazioni da lontano, senza bisogno di microfoni o all’installazione dello stesso in telecamere nascoste. Spionaggio in stile 007!

