Proyectos presentados en la edición 2012



retransmitido en video por los Google Student Ambassadors UNC










Darío Garigliotti:Desambiguación de palabras polisémicas mediante aprendizaje semi-supervisado [filminas]
Pedro Waquim:Mapa del merodeador de FaMAF
Gustavo Ojeda:¿Hay lógica en el fútbol?: Una aproximación utilizando clasificadores en WEKA
Cristian Cardellino:Estudio de correlaciones en el uso de verbos en distintos corpus
Andrés Bordese:Predicción de partidos de fútbol
Juan Norris:Caracterización y extracción de palabras extraídas de un corpus con etiquetas EAGLE
Rodrigo Carranza:Reconocimiento de caracteres en imágenes no estructuradas
Tomás Hayes:Exploración sobre un sistema de recomendación colaborativa
Tomás Moreyra:Estadística predictiva para horarios en transporte público de Córdoba


Propuestas de proyecto



Algunos de los temas sobre los que se podría realizar el proyecto son los siguientes (listado indicativo, no exhaustivo, pueden proponer sus propios temas de proyecto y evaluaremos su factibilidad):

  • Guillermo Moncecchi sugiere a sus estudiantes del curso de Métodos de Aprendizaje Automático que traten de predecir los resultados de partidos de fútbol a partir de datos históricos
  • detección de autoría, en particular, Ernesto Mislej nos ha donado un corpus de textos de Clarín / La Nación y Página 12 / Tiempo Argentino sobre los cuales se puede hacer detección de línea editorial, y tratar de superar el 92% que obtuvo el mejor equipo de la Maestría en Explotación de Datos y Descubrimiento del Conocimiento de la UBA.
  • Georgina Flesia propone trabajar sobre un clasificador lineal, para que vean un problema en que un clasificador lineal es mejor que muchos otros. El trabajo entender consiste en el problema, y probablemente sacar a flote algunas otras cositas, como reducir reglas manteniendo tasas, etc.
  • Jorge Sánchez propone trabajar sobre la detección y reconocimiento de palabras en imágenes no estructuradas (p.ej. documentos escaneados) comprende por lo general dos etapas: 1) la detección de las regiones en la imagen que corresponden a texto y/o palabras; 2) la aplicación de técnicas de OCR sobre el conjunto de "imágenes de palabras" extraídas en la etapa anterior. Sin embargo, el esquema anterior falla al considerar imágenes adquiridas en condiciones no estructuradas, p.ej. imágenes adquiridas en la vía pública mediante dispositivos móviles. Como proyecto se propone la implementación y evaluación del método para la detección de caracteres en imágenes propuesto por Wang et al. [1] y -opcionalmente- el reconocimiento de palabras a partir de un léxico específico. Posibles aplicaciones: asistencia a la navegación (personas no videntes, automóviles, robótica), minería de texto en bancos de imágenes, etc. [1] K. Wang, B. Babenko and S. Belongie. "End-to-End Scene Text Recognition". In ICCV, 2011
  • relacionado con el anterior, Franco Luque propone un proyecto sobre reconocimiento y desambiguación de personas, lugares y fechas en documentos judiciales sobre delitos de lesa humanidad, desde la perspectiva de Procesamiento del Lenguaje Natural.
  • por otro lado, también Franco propone un proyecto sobre reconocimiento de entidades anatómicas y patologías en informes médicos y/o detección de negaciones médicas (e.g. "no se identificaron cálculos vesiculares", "ausencia de [...]"). Los datos los proporciona el Hospital Garrahan, que está empezando un proyecto para aplicar Procesamiento del Lenguaje Natural a los informes del servicio de diagnóstico por imágenes.
  • en esa misma línea, Sonia Benítez, del Departamento de Informática en Salud del Hospital Italiano de Buenos Aires, sugiere la detección de copia en historias clínicas (cuando los médicos han copiado un pedazo de historia clínica de la historia clínica de otro paciente), para determinar cuánto incide en la fiabilidad del diagnóstico
  • Pedro propone trabajar con problemas que impliquen recolección y procesamiento de datos, como por ejemplo los datos que se pueden obtener a partir de los sensores de un smartphone (como hizo César Bernardini con el suyo, que se daba cuenta de cuándo estaba quieto, caminando o corriendo), a partir de twitter, u otros.
  • además, Pedro tiene mucha experiencia con varios temas de bioinformática, a partir de sus colaboraciones con la fundación FuDePan, y también sabe mucho de descubrir patrones en lenguaje natural.
  • Laura propone trabajar sobre normalización de textos generados por usuarios, usando como corpus avisos clasificados de la voz del interior o un corpus de sms del rioplatense.
  • también pueden trabajar sobre sistemas de recomendación basados en análisis del texto, como por ejemplo recomendación de noticias, de películas, etc.
  • o también sobre extracción de información a partir de texto libre o a partir de textos de dominio limitado (como la documentación de python, textos biomédicos, u otros).

y qué hacemos si ninguno de estos proyectos les convence? También pueden ver los problemas que se proponen en:

  • alguna de las tareas sobre semántica de lenguaje natural propuestas en SemEval
  • alguna de las tareas de los concursos vigentes o pasados de ConLL o KDD
  • alguna de las tareas de kaggle
  • trabajar con alguno de los datasets de open data

si siguen sin convencerles ninguno de estos, hagan su propia propuesta y la evaluaremos!

Cuestiones administrativas



Como parte de evaluación de la materia se realiza un proyecto final. El proyecto debe empezar a perfilarse el 26 de septiembre, el día de la feria de proyectos en que se presentan diferentes opciones de proyectos. Para definir el proyecto hay que realizar por lo menos una tutoría inicial para plantear y delimitar el problema y delinear el trabajo. Ya pueden elegir el horario para su tutoría. Para rendir el proyecto habrá que presentar un informe escrito y una presentación oral, en el aula, en la última semana de curso.