Mejorando reconocimiento de entidades nombradas del Español mediante la especialización de BETO | Defensa de Trabajo Especial de la Licenciatura en Ciencias de la Computación

16 Set. 2022 - Aula Magna - FAMAF Estudiantes

Estudiante: Nazareno GARAGIOLA | Director: Cristian Adrián CARDELLINO

Resumen: En este trabajo se realizarán tareas de especialización sobre BETO, que es un modelo de lenguaje no supervisado, equivalente al modelo del lenguaje BERT, pero entrenado sobre un corpus de gran volumen del Español. El entrenamiento de BETO es no supervisado, y está pensado para servir como base a diferentes tareas mediante un proceso de afinado sobre dichas tareas. En este trabajo en particular, intentaremos mejorar los resultados de la tarea de Reconocimiento de Entidades Nombradas del Español. BETO ha demostrado tener un buen desempeño utilizando como corpus de evaluación a CONLL. El trabajo contará de varias etapas, cuyo objetivo final será mejorar los resultados de base establecidos por BETO en reconocimiento de entidades nombradas para el Español. En una primera etapa se buscará reproducir los resultados de BETO para tener un resultado sobre el cual desarrollar. En una siguiente etapa se buscará mejorar el desempeño de BETO utilizando grandes corpus anotados del Español, que requerirán un pre-proceso para alinearlo a las entidades presentes en el corpus de evaluación. En una última etapa, se pasará a un esquema semi-supervisado, donde se utilizarán los mejores modelos encontrados para anotar un conjunto de datos no etiquetado, que se utilizará para afinar BETO en un esquema de bootstrapping.