Un nuevo informe determina que una cantidad «escandalosa» de la web ya es basura traducida por IA

Un nuevo informe determina que una cantidad "escandalosa" de la web ya es basura traducida por IA

Un nuevo estudio realizado por investigadores del laboratorio de Inteligencia Artificial de Amazon Web Services ha revelado que una parte importante y cada vez mayor del contenido de la web se traduce automáticamente, a menudo con escasa calidad y precisión. El estudio, publicado en arXiv, utilizó un método novedoso para detectar y analizar frases traducidas a varios idiomas en la web, y descubrió que más de la mitad de ellas probablemente habían sido generadas por sistemas de traducción automática.

Los investigadores afirman que la prevalencia de contenidos de baja calidad traducidos automáticamente en la web plantea serios retos y riesgos para el desarrollo y el uso de grandes modelos lingüísticos, que se entrenan a partir de cantidades masivas de datos extraídos de la web. Según ellos, esos modelos podrían heredar los errores y sesgos de los datos traducidos automáticamente y producir resultados engañosos o perjudiciales.

El estudio también descubrió un sesgo de selección en el tipo de contenidos que se traducen a muchos idiomas, lo que sugiere que obedece a incentivos económicos más que a la diversidad lingüística o cultural. Los investigadores descubrieron que los contenidos que se traducen a varios idiomas son más breves, más predecibles y tienen una distribución temática distinta de los que se traducen a un solo idioma. Especulan que estos contenidos proceden en su mayoría de fuentes de baja calidad en inglés, como el spam o los sitios web de clickbait, y que luego se traducen en masa a muchos idiomas con menos recursos a través de la traducción automática, con el fin de generar más ingresos publicitarios.

El estudio es uno de los primeros en investigar el fenómeno del paralelismo multidireccional, que se refiere a la situación en la que una frase o un documento se traduce a varios idiomas en la web. Los investigadores desarrollaron un método para identificar y extraer automáticamente este tipo de frases de un corpus web de gran tamaño y, a continuación, utilizaron evaluaciones humanas y automáticas para valorar su calidad y origen. También compararon las características y distribuciones de las oraciones paralelas multidireccionales con las de las oraciones paralelas unidireccionales, que se traducen a un solo idioma.

Los investigadores analizaron un total de 1.200 millones de frases de la web en 100 idiomas. Descubrieron que el 54% de las frases se habían traducido a dos o más idiomas y el 10% a 10 o más. También observaron que la calidad de las traducciones disminuía a medida que aumentaba el número de idiomas, lo que indicaba que en su mayoría habían sido producidas por sistemas de traducción automática. Calcularon que el 85% de las frases que se habían traducido a 10 o más idiomas se habían traducido automáticamente, frente al 35% de las frases que se habían traducido a dos idiomas.

Los investigadores también observaron una diferencia significativa en la longitud, la entropía y la distribución temática de las oraciones paralelas multidireccionales y las oraciones paralelas unidireccionales. Comprobaron que las oraciones paralelas multidireccionales eran más cortas, tenían menor entropía (es decir, eran más predecibles) y era más probable que trataran temas como la salud, el ocio y los deportes, que las oraciones paralelas unidireccionales, que eran más largas, tenían mayor entropía y era más probable que trataran temas como la política, la ciencia y la educación.

Los investigadores concluyeron que su estudio revelaba que «una cantidad escandalosa de la web se traduce automáticamente», y que este fenómeno tiene importantes implicaciones para el campo del procesamiento del lenguaje natural y para la sociedad en general. El estudio también abre nuevas vías de investigación, como el desarrollo de métodos para detectar y filtrar datos traducidos automáticamente, la mejora de la calidad y diversidad de los contenidos traducidos automáticamente y la investigación de los aspectos éticos y sociales de la traducción automática en la web.