Aprendizaje por Refuerzos: Fundamentos Teóricos y Aplicaciones

16 Junio 2021 - https://meet.google.com/qeh-kntz-som

Fecha: 16/06/2021 a las 11:hs

Expositores:

Sala Virtual: link a meet, Canal de Youtube.

Resumen:

A partir de la evolución de los sistemas cognitivos y el aprendizaje profundo (deep learning), la ingeniería de sistemas de información ha ingresado definitivamente en un cambio paradigmático promovido por la creciente incorporación de la autonomía para actuar en el diseño y la programación de los sistemas de información. Dicha autonomía impone que el diseño del sistema enfatice la capacidad intrínseca de aprender, y a partir de ello, actuar y decidir inteligentemente para hacer frente a las incertidumbres del entorno sobre el que actúa. La capacidad de aprender como rasgo distintivo del diseño y construcción de una entidad autónoma de software (agente) permite abordar tareas complejas sin necesidad de incluir a priori la lógica de actuación de manera explícita en la programación. Por el contrario, el sistema debe ser capaz de transformar una meta, rol, objetivo o requerimiento a satisfacer en una política de actuación. Uno de los pilares para la integración de capacidades de aprendizaje en sistemas, que ha suscitado gran interés a partir de su aplicación exitosa en áreas diversas como videojuegos, robótica, finanzas, conducción autónoma e Industria 4.0 (entre muchas otras), es el paradigma conocido como Aprendizaje por Refuerzos (Reinforcement Learning, RL). En RL, un agente aprende cómo mapear situaciones en acciones de manera tal de maximizar una señal de recompensa numérica. El agente no conoce a priori cuáles acciones debe tomar, sino que debe descubrir cuáles de ellas producen las mayores recompensas por medio de prueba y error. En los casos más interesantes, las acciones podrían afectar no solo la recompensa inmediata sino también todas las subsecuentes. En el presente seminario, se expondrán los principales fundamentos teóricos del Aprendizaje por Refuerzos y sus métodos de solución principales: Diferencias Temporales y Gradiente de Política, en sus variantes clásica y profunda. Además, se explorarán algunas de sus aplicaciones actuales en diversos campos de la industria y la academia.