Usar la historia del diálogo para mejorar modelos de Visual Question Answering | Defensa de Trabajo Especial de la Licenciatura en Ciencias de la Computación

12 Ago. 2022 - Aula Magna - FAMAF Estudiantes

Estudiante: Thomas Santiago VADORA | Director: Mauricio Diego MAZUECOS PEREZ | Representante: Luciana BENOTTI

Resumen: En este trabajo presentamos algunas técnicas para poder crear modelos que utilicen el historial de una conversación para responder preguntas sobre una imagen. En particular nos enfocamos en un juego llamado “GuessWhat?!” en donde hay dos jugadores, el primero, llamado Oráculo, al que se le asigna un objeto en una imagen y debe responder las preguntas que le realiza el segundo jugador, llamado Preguntador, que tiene que realizar preguntas sobre la imagen intentando localizar en la misma el objeto que se le asignó al Oráculo. En esta tesis nos enfocamos en el Oráculo y en cómo permitirle que utilice el historial del diálogo para responder mejor las preguntas. Usamos de modelo base un modelo que utiliza una arquitectura basada en Transformers, llamada LXMERT, y la adaptamos para la tarea del Oráculo. Luego probamos múltiples técnicas simples utilizando redes recurrentes por encima de LXMERT y demostramos que no alcanza solamente con utilizar el lenguaje para hacer que nuestro modelo aprenda a usar la historia del diálogo para mejor. Por esto luego presentamos un método que llamamos “Región bajo discusión” que culminó en una publicación en donde le damos al modelo información de las restricciones que el historial del diálogo ha generado en la imagen.