Pesquisadores do Google DeepMind e da University of Oxford conseguiram treinar uma Inteligência Artificial capaz de ler lábios com margem de acerto maior do que a um especialista humano.
Para treinar o algoritmo, ao invés de utilizar gravações criadas especificamente para isso, foram utilizadas milhares de horas de programas de TV do canal britânico BBC, principalmente com conteúdo político.
O resultado foi que DeepMind passou a conseguir decifrar o que era dito sem ouvir o áudio em 46.8% dos casos. Em comparação, com acesso às mesmas filmagens, especialistas em leitura labial obtiveram uma taxa de sucesso de apenas 12.4%, quase um quarto da performance da Inteligência Artificial. Em termos de números, foram utilizadas 5.000 horas de gravações, tiradas de programas como Newsnight, Question Time e World Today, em um total de 118 mil frases diferentes e cerca de 17.500 palavras únicas.
É um dos mais massivos bancos de dados já utilizados para um banco de dados com esse objetivo. Entre as aplicações possíveis da pesquisa estão a legendagem automática de filmes mudos ou como um sistema de auxílio para pessoas com deficiências auditivas. Os pesquisadores também acreditam que o recurso possa ser utilizado para melhorar a compreensão de sistemas como Siri ou Alexa, apenas mexendo os lábios para uma câmera.
Outros especialistas, entretanto, temem que no futuro a tecnologia possa ser aperfeiçoada a ponto de poder ser utilizada para fins de espionagem ou monitoramento. De um jeito ou de outro, as conclusões da pesquisa estão disponíveis em um artigo científico disponibilizado para a comunidade (PDF).