Categorias

Algoritmos da Microsoft conseguem transcrever fala humana melhor que os próprios humanos

A Microsoft anunciou um marco em termos de Inteligência Artificial: seus algoritmos de transcrição de textos obtiveram uma performance superior a dos próprios seres humanos.

Em outras palavras, a Microsoft possuiu um sistema capaz de ouvir e entender a fala de um ser humano melhor do que qualquer pessoa.

O algoritmo foi alimentado com mais de 2000 horas de áudio de falas de pessoas para conseguir entender pausas, entonações, sotaques e outras características complexas do discurso humano. Para os testes, a Microsoft contratou uma empresa terceirizada para produzir áudios previamente preparados do qual se tinha uma transcrição com 100% de acuidade. Os dois trechos de áudio  para testes foram analisados por um especialista em transcrição e depois corrigidos por um segundo especialista. Em seguida, os mesmos trechos foram processados pela Inteligência Artificial.

Na transcrição realizada pela dupla de especialistas foi obtido um índice de erros de 5,9% para um texto padrão na indústria e 11,3% para o áudio de uma conversação trivial entre amigos e familiares, enquanto o sistema projetado pela Microsoft conseguiu a mesma marca de 5,9% para o texto padrão e 11.1% na conversa do dia a dia. A diferença mínima constituiu algumas dezenas de erros a menos cometidos pelo algoritmo.

A meta da Microsoft agora é obter a mesma taxa de eficiência em situações mais complexas, como ambientes com múltiplas fontes de som, como o interior de um veículo ou mesmo um ambiente doméstico. Com o avanço da tecnologia se tornam possíveis e melhores interfaces de interação baseadas em fala, como Cortana e futuros produtos.