Pangeanic en el AMTA 2022 ¿Qué aprendimos?

Cada año, Pangeanic participa en numerosos eventos y conferencias que se realizan en el sector del Procesamiento del Lenguaje Natural. Este año nuestro equipo se desplazó a Orlando para atender el evento AMTA 2022.

AMTA 2022

Se trata de la decimoquinta conferencia de la Asociación de Traducción Automática de las Américas que tuvo lugar en Orlando (Florida) y online del 12 al 16 de septiembre de 2022.

En esta conferencia se abordaron una variedad de temas, demostraciones de las últimas ofertas de proveedores de TA, tutoriales para principiantes y profesionales más experimentados, y talleres.

Otros interesados en TA y lingüística computacional pudieron conectarse con mentores académicos y de la industria, para aprender sobre todo aquello que se espera de esta tecnología que tantas posibilidades y oportunidades tiene de cara al futuro.

Los oradores principales y más destacados que intervinieron en el evento este año fueron Marco Trombetti, director general de Translated, Angela Fan, científica investigadora de Meta AI Research y Dr. Alex Waibel, profesor de Informática de la Universidad Carnegie y el Instituto de Tecnología de Karlsruhe.

Puntos clave de la conferencia

Nikita Teslenko y Carmen Grau asistieron en nombre de Pangeanic para dar a conocer los últimos avances de nuestra tecnología del lenguaje y a su vez, rodearse de profesionales del sector que les permitieron ver en qué situación se encuentra la TA y procesamiento del lenguaje natural, qué avances y nuevos desarrollos se proponen, nuevas posibilidades e innovaciones del sector…

Como puntos clave de la conferencia ambos destacaron los siguientes:

  1. La traducción automática está mejorando constantemente con la traducción automática neuronal. En la conferencia se presentaron algunas innovaciones, como nuevas métricas de evaluación humana, aumento del conjunto de datos o métodos de selección y limpieza de datos. Sin embargo, todavía estamos en la era del Transformer.
  2. La TA dinámicamente adaptativa es una idea innovadora en la que las traducciones se cambian sobre la marcha sin necesidad de tener un proceso de reentrenamiento del modelo, que es caro y lento. Además, los traductores no tienen que resolver el mismo error de TA dos veces, algo que resulta molesto y desmotivador la mayoría de las veces. Hoy en día, algunas empresas afirman tener esta característica, pero su definición sigue siendo poco clara.
  3. Los modelos de traducción multilingüe parecen tener un mayor impacto en la traducción. El entrenamiento con datos de un dominio específico en idiomas que son similares entre sí, parece mejorar esas traducciones dentro del dominio, ¡lo que es bastante impresionante!
  4. También se habló de los pros y los contras de los grandes modelos neuronales de traducción automática multilingüe. Estos grandes modelos se están utilizando y adaptando para trabajar con lenguas de escasos recursos, consiguiendo buenos resultados. Pueden reducir considerablemente los costes de posedición. Por el contrario, debido a sus dimensiones, se están adoptando diferentes estrategias para reducir los costes computacionales. En este sentido, reducir la huella de carbono y hacer que la traducción automática neuronal sea sostenible es una gran preocupación para la industria de la TA.
  5. Las tres conferencias magistrales fueron brillantes e impresionaron al público. Marco Trombetti, dio una charla inspiradora sobre lo lejos que hemos llegado en el sector de la TA y lo que queda por hacer por parte de la comunidad de la TA para enfrentarse a los nuevos retos de la eliminación de las barreras lingüísticas. El profesor Alexander Waibel, expuso su larga experiencia en el desarrollo de tecnologías que permiten superar la brecha lingüística. Por último, Angela Fan, presentó el proyecto No Language Left Behind (NLLB) de Meta, con modelos capaces de ofrecer traducciones de alta calidad entre 200 lenguas de escasos recursos.
  6. Por último, pero no menos importante, como todos sabemos y hemos visto en la conferencia, las grandes cantidades de datos de calidad son las que marcarán la diferencia en un futuro próximo en TA. En diferentes charlas se presentaron y propusieron algunas ideas de generación de texto y aumento de datos. Sin embargo, queda mucho trabajo por hacer en esta área para que sea lo suficientemente rentable y útil para la industria.

En Pangeanic, nos gusta estar informados y al tanto de todo aquello que está por venir, nunca se sabe dónde se pueden encontrar nuevas oportunidades, y es en espacios así donde más podemos aprender.

Como empresa de Tecnologías del Lenguaje y Procesamiento del Lenguaje Natural, nuestro equipo trabaja día a día investigando y desarrollando nuestras tecnologías para ofrecer los mejores servicios adaptados a nuestros clientes. Asistir a eventos como este, nos permite seguir creciendo y la participación de nuestro equipo es muy importante.