Tener a disposición un traductor de texto de hasta 100 lenguas es algo impresionante, pero que éste sea capaz de traducir directamente de voz a voz es algo que hasta ahora solo se veía en series y películas de ciencia ficción.
En la Guía del autoestopista galáctico, el pez de Babel, al colocarlo en la oreja, traduce instantáneamente todos los idiomas. mrrtist21, CC BY-SA
La utopía del traductor universal, un dispositivo hasta ahora ficticio, servía en el universo de ficción de Star Trek para entenderse con alienígenas. En la novela Guía del autoestopista galáctico, de Douglas Adams, el Pez de Babel era un dispositivo biológico en forma de pez que se ponía en la oreja y era capaz de traducir en tiempo real cualquier idioma. El mito está hoy un paso más cerca de hacerse realidad.
Meta, la compañía de Mark Zuckerberg, ha publicado un artículo en la revista Nature donde presenta un sistema de inteligencia artificial capaz de realizar traducciones en múltiples lenguas, tanto desde y hacia texto como desde y hacia audio, así como todas sus combinaciones.
La traducción automática antes de Meta
Muy lejos han quedado ya esos primeros sistemas de traducción automática basados en reglas y en cálculos estadísticos previos al salto a la traducción neuronal automática allá por 2016. En la actualidad contamos con un gran poder de cómputo que podemos aprovechar para darle rienda suelta al aprendizaje de máquina (machine learning) a través de las redes neuronales artificiales aplicadas a la creación de grandes modelos lingüísticos. Esas mismas que son la base de nuestro querido (y a veces odiado) ChatGPT.
Hasta ahora, la mayoría de los traductores automáticos traducen de un idioma X a otro Y usando una lengua intermedia en donde se tengan muchos datos para poder así entrenar estos sistemas. Y sí, como era de esperar, la mayoría de los sistemas de traducción pasan por el inglés como intermediario. Esto es lógico, ya que si pensamos que tenemos 100 lenguas y queremos traducir de todas a todas necesitaríamos 19 800 traductores (100 => 99 y viceversa). Es decir, hay que combinar todas con todas. Sin embargo, si usamos el inglés como lengua intermedia se ahorran muchos pasos y solo nos harán falta 198 (99 => inglés + inglés => 99).
El problema es que ese empleo de una lengua intermedia requiere dos pasos de traducción (desde la lengua de origen al inglés y desde el inglés hasta la lengua de destino), lo que posiblemente conlleva la comisión de muchos errores.
La traducción automática hoy en día
La propuesta de Meta es realizar traducciones directas entre dos lenguas gracias al uso de un espacio de representación común. Es decir, el texto (o audio) se convierte a una serie de valores numéricos que los representan, para que así una máquina pueda procesarlos.
En este espacio multidimensional, las oraciones con significados similares estarán próximas entre sí, de tal forma que es posible medir distancias y realizar cálculos en dicho ámbito. Lo que es interesante es que el sistema de Meta es capaz de aprender cómo representar texto y audio en ese espacio independientemente del idioma en que esté.
Imagine un espacio de múltiples dimensiones donde distintas oraciones estén organizadas de acuerdo a su parecido a muchas otras. Una oración en una lengua y su traducción a otra estarán muy cerca una de otra; casi superpuestas, podríamos decir.
Gracias a este preprocesamiento de los datos, realmente no hace falta crear nuevas redes neuronales artificiales mucho más complejas que las que ya tenemos a nuestra disposición. Todo es cuestión de usar la información disponible de forma inteligente.
Merced a ello es posible realizar algunas tareas, como la traducción de texto a voz para algunas lenguas donde no sea posible contar con suficientes datos de entrenamiento. Es decir, si sabemos traducir de texto a texto de una lengua X a otra Y, pero no contamos con ejemplos de traducciones de texto del idioma X a voz en el idioma Y, podremos utilizar el espacio de representación para sortear el problema.
Aprendizaje de 0 ejemplos
Esto se consigue gracias al uso de una técnica de aprendizaje llamada zero-shot, algo así como “aprendizaje de cero ejemplos”. Dado que tanto el texto como el audio están representados en el mismo espacio multidimensional, es posible dar el salto entre uno y otro.
Alguien podría objetar que el paso de texto a voz sí es algo resuelto y que existen muchos programas que son capaces de hacer un trabajo aceptable. Sin embargo, si quiero traducir de voz a voz y descompongo el problema en pasos (voz en la lengua X => texto en la lengua X => texto en la lengua Y => voz en la lengua Y), el sistema resultante probablemente tendrá mucho retardo y termine siendo inutilizable en un caso real. Poder realizar todo el proceso en un solo paso consigue que la traducción sea fluida.
La traducción automática en el futuro
A pesar de todos estos avances, la traducción automática no se puede considerar un problema resuelto. Hay muchos elementos que no se están considerando, como las inflexiones vocales u otros componentes emocionales que pueden afectar la precisión de la traducción final, especialmente si se utiliza una traducción de voz a voz.
También es cierto que puede haber problemas a la hora de determinar el género gramatical de algunas palabras –como, por ejemplo, profesor o profesora, que en inglés no tiene género y en castellano sí–, ya que existe una sobregeneralización hacia un género específico.
Pero lo más complejo de resolver es la falta de datos de calidad para poder entrenar estos sistemas de inteligencia artificial tan avanzados. Por eso, la traducción entre idiomas minoritarios (como el zulú o el nyanja) es aún un gran desafío. Los traductores automáticos que vendrán en el futuro deberán tener todo esto en cuenta y ser además rápidos y energéticamente eficientes para poder incorporarlos a nuestros dispositivos móviles.
Aunque parezca que traducir entre 100 lenguas es algo increíble, solo estamos hablando de una pequeña porción de los idiomas que se hablan en el mundo, que superan los 7 000. Sin embargo, la meta (y esta meta es con minúscula) de construir la Torre de Babel parece estar cada día un poco más cerca.
Rocío Romero Zaliz, Personal docente e investigador area de ciencia de la computación e inteligencia artificial, Universidad de Granada
Este artículo fue publicado originalmente en The Conversation. Lea el original.