Cómo funciona Skype Translator

Cómo funciona Skype Translator

1 comentario Facebook Twitter Flipboard E-mail
Cómo funciona Skype Translator

La ciencia ficción está plagada de referencias a dispositivos tecnológicamente avanzados cuyo funcionamiento, parafraseando a la mítica expresión, es indistinguible de la magia. Surgidos de la mente creativa de sus autores, cuesta imaginar cuando tales inventos podrían estar en nuestras manos y acabamos aceptando que su existencia no llegará a formar parte de nuestro ciclo vital. Pero de vez en cuando uno de ellos se cuela en nuestras vidas antes de tiempo. Ese es el caso de la traducción en tiempo real que Microsoft y Skype están a punto de hacer posible.

La tarea es de todo menos sencilla. Implica la capacidad de Skype para establecer videoconferencias, la basta red de servidores en la nube de Microsoft Azure, las innovaciones tecnológicas de Microsoft Research y los avances recientes en múltiples áreas como la estadística y el "machine learning". Todo ello puesto a tu servicio para que, tan pronto pronuncies una frase en tu idioma, el sistema reconozca lo que dices, lo traduzca y se lo transmita a tu contacto en un idioma distinto. ¿Cómo es posible?

La tecnología que lo hace posible

Skype Translator, nombre con el que se conoce a la nueva funcionalidad, no es flor de un día, ni siquiera de un año. Skype Translator es el resultado de décadas de investigación en reconocimiento del habla, traducción automática y técnicas de 'machine learning'. En todas esas áreas descansa el funcionamiento de un sistema que no habría sido posible sin los últimos avances en ellas.

Skype Translator es el resultado de décadas de investigación en reconocimiento del habla, traducción automática y técnicas de 'machine learning'

Empezando por el reconocimiento del habla, una tecnología que lleva tiempo siendo investigada pero cuya adopción siempre se vio afectada por la gran cantidad de errores y la excesiva sensibilidad de los sistemas existentes. Bastaba un segundo de duda, pequeñas variaciones en el acento, o un mínimo ruido para confundir al ordenador y que este entendiese lo que le diera la gana. Así ha sido hasta que explotó el desarrollo de técnicas de 'deep learning' y la creación de redes neuronales artificiales, de las que algo saben en Microsoft Research. Gracias a ellas se ha conseguido reducir considerablemente el ratio de errores y mejorar la fiabilidad y robustez del reconocimiento del habla, un primer paso necesario para que funcione Skype Translator.

La traducción automática es el otro pilar evidente sobre el que descansa Skype Translator. Aquí Microsoft vuelve a tirar de tecnología de la casa y utiliza el motor de traducción de Bing para llevar el texto de un lenguaje a otro. Su sistema utiliza de forma combinada técnicas de reconocimiento de sintaxis y modelos estadísticos para afinar el resultado. Además, en esta ocasión, el motor ha sido especialmente entrenado para reconocer el tipo de lenguaje que se da en conversaciones habladas, alejadas de la corrección y pulcritud que se le suele suponer a la escritura. Así, el sistema de Skype Translator combina la gran base de conocimientos de idiomas del traductor de Bing junto a una extensa capa de palabras y frases que suelen utilizarse en el lenguaje coloquial.

Skype Translator Machine Learning 4

Pero el del habla y los idiomas son terrenos complicados. Cambian constantemente, vienen en múltiples sabores y variedades, cada persona tiene su particular estilo, etc.. Skype Translator tiene que estar al tanto de todo esto, siendo necesario entrenar constantemente y optimizar tanto el reconocimiento del habla como la traducción automática. Para ello el sistema se ha construido sobre una plataforma robusta de 'machine learning', una rama de la inteligencia artificial que pretende desarrollar técnicas que permitan a máquinas y algoritmos aprender mediante el entrenamiento con datos de ejemplo. El uso de dichas técnicas, habituales en el área de la estadística, permiten que el servicio mejore conforme va siendo usado, aprovechando los datos generados al utilizarlo para precisar aún más el reconocimiento del habla y la traducción automática.

Parte de estos datos de prueba son generados automáticamente a partir de una gran variedad de fuentes, incluyendo redes sociales como Facebook, páginas webs traducidas, vídeos con subtítulos, o incluso conversaciones creadas ex profeso y transcritas y traducidas manualmente. Pero otra parte de los datos provienen de conversaciones reales mantenidas a través del servicio. Esto es importante porque, tal y como Microsoft avisa en cada llamada, has de saber que Skype Translator puede grabar las conversaciones, manteniéndolas anónimas, para que sean posteriormente analizadas por sus algoritmos e introducidas en el proceso de entrenamiento de sus modelos estadísticos.

Skype Translator solo puede funcionar correctamente si es capaz de aprender mediante un proceso basado en su uso en conversaciones reales entre humanos

El sistema no podría funcionar sin ese proceso de aprendizaje. Al hablar los humanos hacemos pausas y repetimos cosas, cometemos errores y cambiamos nuestra forma de pensar sobre la marcha, introduciendo "ahs", "ehms", "uhms" y demás expresiones en la conversación. Lo ideal es que ninguna de estas cosas aparezca en la transcripción o en la traducción, y ello solo es posible si el sistema aprende cómo tener esos detalles en cuenta. Skype Translator ya es capaz de reconocer alguna de estas situaciones, pero todavía se le escapan algunos y otros ni siquiera habrán sido previstos, por lo que solo el aprendizaje sobre su uso real podrá hacer que mejore.

De un idioma hablado a otro en pocos segundos

Soportado por todos esos avances, la clave es que Skype Translator sea capaz de ejecutar todo el proceso de reconocimiento y traducción de manera rápida y transparente para el usuario. Cada vez que hablemos el sistema deberá reconocer lo que estamos diciendo, traducirlo al idioma del destinatario y comunicárselo a él de forma que se mantenga fiel a lo que inicialmente tratábamos de comunicar. Cuánto menos nos percatemos de los pasos intermedios mejor.

Skype Translator Speech

Tan pronto el sistema detecta que estamos hablando comienza a registrar lo que decimos e inicia el proceso de reconocimiento del habla. Aquí no se trata solo de reconocer cada palabra que estamos pronunciando, sino también de eliminar todo lo superfluo, borrando expresiones sin significado y ruido, detectar la división del texto en frases, con la inclusión de signos de puntuación y mayúsculas, y dotarla de un contexto que ayude a su interpretación. Cuando se piensa un poco en ello, uno se da cuenta de la dificultad de determinar todo eso a partir del lenguaje hablado.

Skype Translator necesita que ese reconocimiento del habla sea lo más preciso posible, porque lo que sigue es preparar la información recopilada para compararlo con los modelos estadísticos que han ido mejorando mediante su sistema de 'machine learning'. Aquí el proceso consiste en encontrar similitudes entre lo que el sistema ha entendido que decíamos y las palabras y contextos contenidos en los modelos, para posteriormente aplicar transformaciones previamente aprendidas que convertirán el audio en texto y traducirán éste al idioma extranjero.

Skype Translator Translate

En el paso final, Skype ha preparado un par de bots, con voces femenina y masculina, que actúan como intérpretes en la llamada. Seleccionado uno por el usuario, él será el encargado de comunicar nuestro mensaje traducido al receptor, de forma que no solo le aparezcan las transcripciones y traducciones escritas en pantalla, sino que también pueda oírlas de viva voz como si un tercer humano estuviese intermediando entre nosotros. Estos bots son capaces de comunicar rápidamente el mensaje, de forma que quien esté escuchando al otro lado de la pantalla reciba el mensaje pocos segundos después de que lo hayamos pronunciado.

El programa de pruebas como punto de partida

Precisamente la presencia de los bots como terceros hablantes en la conversación es uno de los detalles que todavía queda por pulir. Microsoft reconoce que adaptarse a ellos es fácil para personas acostumbradas a hablar a través de un intérprete, pero para otros requiere un periodo de aprendizaje. Y es que puede que Microsoft y Skype estén decididos a crear la mejor experiencia de traducción en tiempo real que existe, pero para ello necesitan que aprendamos tanto nosotros como las máquinas. La preview de Skype Translator es solo un paso más en ese proceso.

El programa de pruebas se puso en marcha a mediados de diciembre, introduciendo la traducción hablada entre dos idiomas: inglés y español, y la escrita en más de 40. Para acceder a ella es necesario una invitación que podemos solicitar registrándonos en la web del programa. Si somos agraciados con ella podremos probar Skype Translator desde las aplicaciones de Skype para Windows 8.1 o Windows 10 Technical Preview. Sino tendremos que esperar a que el servicio se extienda y se haga público oficialmente.

Sea como sea, Skype Translator ha dado su pistoletazo de salida justo cuando estamos a punto de despedir 2014. Antes de terminar, detente aquí un segundo y piensa en el año que acabas de leer: "dos mil catorce". A poco que superes la veintena de años probablemente recuerdes lo que prometía el salto a los "dos mil" y las altas expectativas que demasiadas páginas de libros y horas de televisión generaron en muchos de nosotros. El cambio de milenio no trajo consigo el futuro que muchos imaginábamos, pero siempre hay quienes no se resignan y continúan construyéndolo poco a poco, como Microsoft y Skype están haciendo con Skype Translator.

Vía | Skype Blogs I, II

Comentarios cerrados
Inicio