'MarIA', el primer sistema de Inteligencia Artificial experto en lengua española

Los ficheros de datos de MarIA no están en dominio público, es decir, no están disponibles.
Los ficheros de datos de MarIA no están en dominio público, es decir, no están disponibles.
BSC-CNS
Los ficheros de datos de MarIA no están en dominio público, es decir, no están disponibles.

El Barcelona Supercomputing Center (BSC) y la Biblioteca Nacional de España (BNE) han presentado un nuevo proyecto que combina la Inteligencia Artificial (IA) y el estudio de nuestro idioma. Dicha innovación se llama 'MarIA' y se trata de un modelo de IA disponible en abierto que posee el objetivo de mejorar el uso del español por parte de otros sistemas u aplicaciones que empleen la Inteligencia Artificial.

Este proyecto ha sido liderado por la investigadora Marta Villegas, del grupo de minería de textos del BSC, y se ha ido probando en el superordenador 'MareNostrum' con archivos de datos de la Biblioteca Nacional. Según han destacado desde la BNE, MarIA se trata del primer modelo de Inteligencia Artificial masivo de la lengua española que expresa y escribe a nivel experto.

Las funciones de MarIA pueden ser los correctores o predictores del lenguaje, aplicaciones de resúmenes automáticos, chatbots, búsquedas inteligentes, motores de traducción y subtitulación automática (entre otros). Además, todas estas opciones las puede usar cualquier desarrollador, empresa o entidad de manera gratuita.

Para crear este modelo de IA se han necesitado 59 terabytes (equivalente a 59.000 GB) del archivo web de la BNE, aunque estos archivos se procesaron para eliminar aquellos textos que no estuviesen bien formados con el objetivo de guardar los que estaban bien escritos a nivel gramatical.

MarIA es un conjunto de redes neuronales entrenadas para comprender la lengua, su léxico y los mecanismos para expresar el significado. Para ello, se utilizó la tecnología basada en Transformer, probada con el inglés, para que dicha IA aprenda a adivinar el contexto de cada palabra. 

De momento, el equipo de trabajo liderado por Marta Villegas quiere ampliar la fuente de archivos con textos y archivos adiciones, veremos si en un futuro se aplica esta innovación definitivamente en el euskera, gallego y catalán.

Apúntate a nuestra newsletter y recibe en tu correo las últimas noticias sobre tecnología.

Mostrar comentarios

Códigos Descuento