Descripción del proyecto
MUCHOS SISTEMAS AUTONOMOS COMPLEJOS (P,EJ, LAS REDES DE DISTRIBUCION ELECTRICA) REPETIDAMENTE SELECCIONAN ACCIONES CON EL FIN DE CONSEGUIR UN OBJETIVO DETERMINADO, EL APRENDIZAJE POR REFUERZO (REINFORCEMENT LEARNING, O RL) OFRECE UNA INFRAESTRUCTURA PODEROSA PARA ADQUIRIR COMPORTAMIENTO ADAPTIVO EN ESTE CONTEXTO, ASOCIANDO UN REFUERZO ESCALAR CON CADA ACCION Y APRENDIENDO POR EXPERIENCIA QUE ACCION SELECCIONAR PARA MAXIMIZAR EL REFUERZO DE LARGO PLAZO, AUNQUE RL HA PRODUCIDO RESULTADOS IMPRESIONANTES RECIENTEMENTE (P,EJ, CONSEGUIR UN NIVEL COMPARABLE AL HUMANO EN LOS JUEGOS DE ATARI Y GANAR AL CAMPEON MUNDIAL EN EL JUEGO DE TABLERO GO), LA MAYORIA DE SOLUCIONES EXISTENTES SOLO FUNCIONAN BAJO RESTRICCIONES FUERTES: EL MODELO DEL ENTORNO ESTA ESTACIONARIO, EL OBJETIVO ESTA INALTERABLE Y LOS EXPERIMENTOS ACABAN UNA VEZ QUE EL OBJETIVO SE HA CONSEGUIDO,ESTE PROYECTO ASPIRA A AVANZAR EL ESTADO DE ARTE DE LA INVESTIGACION FUNDAMENTAL DEL LIFELONG RL (ES DECIR, LOS ALGORITMOS QUE SIGUEN APRENDIENDO DURANTE UN PERIODO EXTENSO), DESARROLLANDO VARIOS ALGORITMOS NUEVOS DE RL QUE RELAJAN LAS RESTRICCIONES MENCIONADAS ARRIBA, LOS ALGORITMOS NUEVOS DEBERIAN SER ROBUSTOS A LOS CAMBIOS EN EL ENTORNO, TANTO EN TERMINOS DE LAS OBSERVACIONES QUE EL SISTEMA PUEDE HACER, COMO DE LAS ACCIONES QUE EL SISTEMA PUEDE TOMAR, ADICIONALMENTE, LOS ALGORITMOS DEBERIAN SER CAPACES DE OPERAR DURANTE LOS PERIODOS LARGOS DE TIEMPO Y CONSEGUIR OBJETIVOS DIFERENTES,LOS ALGORITMOS PROPUESTOS ABORDARAN TRES PROBLEMAS CLAVE RELACIONADOS CON EL LIFELONG RL: LA PLANIFICACION, LA EXPLORACION Y LA DESCOMPOSICION EN TAREAS, LA PLANIFICACION ES EL PROBLEMA DE CALCULAR UN ESTRATEGIA DE SELECCION DE ACCIONES DADO UN MODELO (POSIBLEMENTE PARCIAL) DE LA TAREA POR RESOLVER, LA EXPLORACION ES EL PROBLEMA DE SELECCIONAR ACCIONES CON EL FIN DE MAPEAR EL ENTORNO EN VEZ DE CONSEGUIR UN OBJETIVO PARTICULAR, LA DESCOMPOSICION EN TAREAS ES EL PROBLEMA DE DEFINIR DIFERENTES OBJETIVOS Y ASIGNAR UN ESTRATEGIA DE SELECCION DE ACCIONES DIFERENTE PARA CADA UNO, LOS ALGORITMOS SE EVALUARAN EN DOS ESCENARIOS REALISTAS: LA GESTION ACTIVA DE LAS REDES DE DISTRIBUCION ELECTRICA, Y LA GESTION DE LAS MICROREDES, UN PROTOCOLO DE TESTEO SE DESARROLLARA PARA EVALUAR TANTO CADA ALGORITMO INDIVIDUAL COMO LA COMBINACION DE ELLOS, SISTEMAS AUTÓNOMOS\APRENDIZAJE POR REFUERZO\APRENDIZAJE DE LARGO PLAZO\PLANIFICACIÓN\EXPLORACIÓN\DECOMPOSICIÓN EN TAREAS