Análisis cronológico de opinión en diarios utilizando extracción de tópicos y word-embeddings

12 Oct. 2022 - Aula Magna - FAMAF Estudiantes

Defensa de Trabajo Especial de la Licenciatura en Ciencias de la Computación a cargo de Maximiliano Ezequiel TEJERINA.

Directores: Martin DOMÍNGUEZ y Andrés MATTA

Resumen: Este trabajo tiene como objetivo el análisis del discurso de dos diarios argentinos La Nación y Página 12, intentando capturar el comportamiento de dos editoriales con opiniones políticas antagónicas. Para lograr el análisis se recopilaron notas periodísticas de ambas fuentes, que traten el tema de la “Reforma Laboral”, desde el año 1997 al 2021. Con este conjunto de artículos, se separó en períodos presidenciales, y se utilizaron herramientas de extracción de temas, para analizar la manera en que cada editorial trata el tema elegido. Adicionalmente, se utilizaron técnicas de “word embeddings” para analizar la distancia entre ambos discursos en los diferentes períodos temporales. Para llevar a cabo la tarea, se evaluaron tres modelos de aprendizaje automático con múltiples configuraciones, con el objetivo de encontrar así el mejor rendimiento. En este sentido, en una primera instancia, con técnicas de Procesamiento de Lenguaje Natural aplicadas sobre el contenido de los artículos, se capturó la tematización y limpieza del texto. En una segunda instancia se logró inferir un modelo LDA (Latent Dirichlet Allocation) en dos librerías de python, Luego, se construyeron los “word embeddings” utilizando Fasttext para poder obtener las distancias entre las opiniones de ambos diarios. Del análisis de los resultados obtenidos por LDA para la detección de tópicos se concluyó que, debido a la tipología de los artículos, los resultados no eran satisfactorios. Para solucionar este problema, se exploró otra técnica, Top2Vec. Los resultados obtenidos con esta nueva técnica, fueron satisfactorios, y permitieron identificar algunas particularidades en el tratamiento de las temáticas en cada periódico, las que pueden ser asociadas a agendas y marcos interpretativos diferentes.