Receba no seu e-mail

Voltar

Clipping

30/05/2014 às 14:05

Como o Skype vai aprender a traduzir o que você diz enquanto você fala

Escrito por: Redação
Fonte: Revista Época

O Skype lançou um aplicativo capaz de traduzir conversas em tempo real (ou quase). Para isso, precisou buscar avanços em uma área da inteligência artificial. Outras empresas tentam o mesmo

O indiano Gurdeep Pall, vice-presidente da Microsft encarregado do Skype, participava de uma conferência de tecnologia na Califórnia quando decidiu ter uma conversa digna de um filme de ficção científica. Abriu seu notebook e, usando o Skype, chamou uma colega sua, funcionária da Microsoft na Alemanha. O tema do papo que se seguiu, na verdade, foi um bocado banal. "Oi Diana, tudo bom?", perguntou ele, num inglês rápido, carregado de sotaque. "Tudo bem, meu amigo. É verdade que você vai se mudar para Londres?" respondeu Diana em perfeito...alemão. Todos se entenderam muito bem, obrigado. À medida que falavam, o Skype traduzia o que Diana e Pall diziam. Com essa brincadeira, feita na noite de terça-feira (27), a Microsoft mostrou ao mundo seu novo serviço de tradução simultânea. "Funciona de um jeito mágico", disse o CEO da Microsoft Satya Nadella, presente ao evento, sobre o Skype Translator. "Ele vai aprendendo com o tempo. Como se fosse um cérebro humano".

Your browser does not support iframes.

A ideia é tornar o Skype Translator disponível para usuários de Windows 8 até o final de 2014. A Microsoft trabalha nele há pelo menos 15 anos. O aplicativo demorou a ficar pronto porque, para funcionar, precisou primeiro que um novo tipo de computador fosse desenvolvido - um computador que, tal qual Nadella disse, conseguisse imitar o funcionamento de um cérebro humano.

Os programas que você usa no trabalho, ou para se divertir em casa, guiam-se por uma lógica de programação linear. Basicamente, respondem a instruções previamente dadas: "se o usuário apertar tal botão, tal coisa vai acontecer". O aplicativo de tradução do Skype é mais complexo. Para funcionar direito, precisa, primeiro, ser capaz de reconhecer a voz do usuário. Depois, entender o sentido de cada palavra no contexto em que foi usada. Tornou-se possível graças aos avanços em um campo da computação conhecido como "deep learning". Programas desse gênero criam "redes neurais". A intenção, com isso, é tentar fazer com que um computador imite o cérebro na sua capacidade de reconhecer padrões e relacionar informações. Assim, as máquinas seriam capazes de aprender - ou quase - à medida que analisam maior quantidade de dados. 

Pense em um daqueles scanners de preços, usados em supermercados. Ele leem códigos de barras para reconhecer produtos já cadastrados no sistema. Entendem que dada sequência de risquinhos equivale a um pote de iogurte grego que custa R$2,00. Sempre que vir aquela sequência de risquinhos, o computador vai entender que o cliente quer comprar um potinho de iogurte. Mas só se a sequência for exatamente igual a que foi cadastrada no sistema. 

A ideia do deep learning é eliminar o código de barras. Se um desavisado tentar passar uma tartaruga pelo scanner, o computador não vai entender o que houve, porque ninguém nunca cadastrou no sistema um código para representear esse animal. O deep learning permite que o scanner veja o bicho, aprenda que aquilo é uma tartaruga, e torne-se capaz de reconhecer um exemplar da espécie sempre que o vir, seja a tartaruga grande ou pequena, verde ou amarela.

Hoje, programas com essa capacidade são vistos como um novo importante ramo da Inteligência Artificial. Estudos a seu respeito são realizados desde o início da década de1980, mas não tiveram muito impacto fora da academia até, pelo menos , a metade da década de 2000. Foi o tempo necessário para que computadores suficientemente poderosos se tornassem baratos o bastante para que as empresas vissem as aplicações práticas daquelas pesquisas. Além da Microsoft, empresas como Google e Netflix se lançaram nesse campo. O Google contratou , em março de 2013, Geoffrey Hinton, pioneiro no ramo. O Facebook buscou os serviços do guru Yann LeCun e o Netflix tenta aplicar as técnicas para melhorar o algoritmo usado para recomendar aos usuários o que assistir.

O deep learning foi importante para o Skype porque tradução é uma tarefa mais complicada do que pode parecer a princípio. Qualquer pessoa que já tenha tentando traduzir um texto usando o Google tradutor experimentou o desapontamento de terminar com um resultado quase tão incompreensível quanto o texto original. Trechos longos, pontuados por gírias e expressões linguísticas, são um desafio para sistemas de tradução, por mais completos que sejam seus dicionários. As palavras não são como código de barras e, dependendo do contexto em que são utilizadas, têm significados diferentes. Traduzir um texto falado é ainda mais complicado. Enquanto falamos, espalhamos por nossas frases pausas sem função gramatical. A respiração, a entonação...tudo isso atrapalha a difícil tarefa de dividir o que falamos em períodos - e dar sentido a eles.

Para que aprendesse a traduzir, o Skype precisou ser abastecido com dados sobre como as pessoas falam. Para fazer isso, o time da Microsoft recorreu às redes sociais. "A maneira como as pessoas escrevem nas redes sociais não é igual à maneira como elas falam, mas há algumas semelhanças nas gírias e variações que podem ajudar o sistema" disse Arul Menezes, chefe do time de tradução da Microsoft. 

Quem já tentou (ou está tentando) fazer o mesmo

Outras empresas tentam criar ferramentas semelhantes. Em 2010, o Google anunciou trabalhar em um aplicativo para celulares Android que traduziria conversas em tempo real. À época, a empresa estava confiante de que, em poucos anos, a tecnologia estaria pronta: "Achamos que a tradução de voz-para-voz pode tornar-se possível e funcional em alguns poucos anos", disse Fraz Och, o responsável do Google pelos serviços de tradução. "Claramente, para que isso funcione bem, você precisa de uma combinação de máquinas de tradução muito precisas com ferramentas de reconhecimento de voz muito precisas, e é no que estamos trabalhando". O produto final do Google ainda não veio à tona. Mas, em 2011 - um ano depois das primeiras declarações de Och a respeito - a empresa disponibilizou um aplicativo para usuários Android que oferecia um lampejo disso. O programa reconhece a voz do usuário e traduz suas frases do inglês para o espanhol. Durante uma demonstração do serviço ainda em 2010, o brasileiro Hugo Barra teve alguma dificuldade para colocar o app para funcionar em uma conversa em inglês-alemão.

Na apresentação de quarta-feira, o programa da Microsfot também cometeu seus deslizes. Pall quis saber por que Diana faria uma viagem ao Estados Unidos. Sua resposta traduzida: "Eu tenho muitas reuniões com meus colegas em Redmond, e vou aproveitar a chance para ver o meu noivo dela", disse o Skype, num pequeno deslize pronominal. Em um texto no blog da Microsoft, Pall descreveu a experiência como uma ficção saída de Jornada nas Estrelas e tornada real. Não chega a tanto, mas bota a gente para sonhar.