La IA leerá el texto para descubrir la información por ti

En la nueva entrevista de una serie realizada al equipo clave de investigación y desarrollo y producto tecnológico de Pangeanic descubrimos la visión que “por dentro” tienen nuestros desarrolladores y visionarios como expertos. En esta entrevista, hablamos con Manuel Herranz, CEO de la empresa para que nos relate algunas de las novedades en las que está trabajando la empresa.

Manuel ¿cuáles son las novedades en las que estáis trabajando en PLN? 

Hay una cosa muy buena de trabajar en Procesamiento del Lenguaje Natural y es que el campo es muy amplio. Dentro de la Inteligencia Artificial,  yo diría que toca áreas “muy humanas” con las que todos estamos familiarizados: el lenguaje, su significado, intenta resolver sus ambigüedades y polisemias en traducción automática, nos escucha y ayuda a través de asistentes personales…. Sin embargo, quedan muchos retos por delante de nosotros. 

Nuestra misión es combinar la inteligencia humana y la tecnología para que las personas puedan extraer información de datos de una manera que de otro modo no podrían.  La traducción automática, en todas sus formas, es un reto que consideramos prácticamente resuelto y en el que los usuarios pueden reentrenar sus máquinas y  crear sus propias “granjas” de traducción privada.

Ahora bien, la pregunta es ¿qué hacemos con toda esa información? Tenemos que buscar, identificar actores, lugares, fechas, tal vez incluso acciones (verbos) y combinaciones de ellas. Queremos que nuestra IA sea capaz de leer el texto para descubrir la información que los humanos ya no tenemos tiempo de leer o procesar, y eso incluye, por ejemplo, descubrir vinculaciones que a un grupo de agentes de la ley, abogados, investigadores o economistas, les costaría semanas encontrar.

¿Por qué es eso importante? ¿Qué impacto tiene en la sociedad?

El PLN es, en su base, un conjunto de algoritmos de aprendizaje automático que comprenden e incluso escriben texto. Como he dicho antes, para mí es una de las áreas más excitantes en investigación dentro de la IA, es donde todo está ocurriendo, y vamos hacia un futuro en el que la inteligencia artificial para textos (y voz) estará disponible como servicio, lo cual acelera la adopción de la tecnología.

Cada día, sin pausa, nos enfrentamos a centenares de informaciones que ya no podemos procesar. Cuando esa información ha de revisarse meticulosamente, los recursos y habilidades humanas son limitados y una de nuestras mayores limitaciones es el tiempo. Estamos trabajando para resolver ese reto: motores de PLN con modelos que puedan leer y resumir largos cuerpos de texto, extrayendo conceptos clave, reconociendo e identificando a las personas que podrían ser mencionadas, e identificando patrones y estructuras que a los lectores humanos podrían pasárseles por alto.

Todo ello tiene, lo que denomino, implicaciones de 2º, 3er y 4º grado, implicaciones imprevistas: podremos saber de qué trata un texto, un documento, un informe, etc., en un idioma extranjero sin necesidad de traducirlo (lo hará la máquina como proceso interno), pero además, se podrán extraer vinculaciones entre personas y hechos de una forma más rápida. Esto puede tener repercusiones muy rápidas en entornos jurídicos, comprendiendo mejor las evidencias forenses, pero también en inteligencia policial, por ejemplo. También nos puede permitir “comprender” grandes cantidades de información de nuestro pasado. Europa es muy rica en repositorios históricos, archivos, bibliotecas para los que se necesitarían 100 vidas si quisiéramos leer y comprender sus contenidos…. Y no encontraríamos vinculaciones.

Pongamos como ejemplo el Archivo de Indias en Sevilla, y toda la documentación sobre tres siglos de presencia española en el continente americano. Hay una gran cantidad de información cruzada por explorar. En algunos proyectos europeos (UE) trabajamos para recuperar memoria histórica del pueblo judío, por ejemplo.

Hablando de terceras y cuartas repercusiones, imaginemos los procesos judiciales, en donde la evidencia está disponible para fiscales y las partes mucho más rápido y con métricas, llamémoslo así, “industriales”.  Esos lentos procesos judiciales pueden convertirse en procesos más ágiles, lo cual repercute en la calidad de vida de los ciudadanos. La IA, y dentro de ella el PLN, están aquí para hacernos la vida más fácil y mejor.

¿Puedes darnos otros ejemplos más concretos?

Claro, más allá de la inteligencia o el campo jurídico, una empresa de recursos humanos puede preprocesar CVs en otros idiomas, incluso extraer información clave, ya sea con palabras o con breves abstractos. Una empresa financiera también podría utilizar ECO para comprender ingentes cantidades de archivos regulatorios en chino o japonés, con sus respectivos resúmenes. El objetivo sería identificar potenciales riesgos para aquellas empresas que tienen una exposición al mercado chino, y se me ocurren muchas ….

No puedo desvelar más sobre nuestro trabajo, pero no es sorpresa que tendremos modelos pre-entrenados y también trabajaremos con clientes para personalizar los modelos para tareas específicas o conjuntos de datos concretos.

Estamos en medio de una revolución con el procesamiento del lenguaje natural en este momento y ello significa que un gran número de las tareas de lectura y escritura que todavía nos ocupan como los humanos van a poder ser realizadas por máquinas en nuestro beneficio.

¿Qué otras áreas son importantes en vuestro desarrollo?

El análisis del sentimiento. Si unimos todo lo anterior a una clasificación positiva o negativa, la información sumarizada se vuelve muy potente. Crucemos datos de declaraciones, por ejemplo, con las inversiones bursátiles de cierta persona y encontremos el sentimiento positivo o negativo y la tendencia de una acción cotizada. Las palabras o hechos de ciertas personas pueden tener una relevancia muy alta en los mercados de valores.

¿Tienes un último mensaje, Manuel?

Vamos a ser testigos de una nueva forma de inteligencia, relaciones y comportamiento, de unas nuevas inteligencias y perspicacias, a una velocidad y escala que hasta ahora no nos era posible ni accesible, simplemente porque ni podíamos leer lo suficiente ni encontrar las relaciones profundas.