LA AUTONOMIA DE LARGO PLAZO QUE EVOLUCIONA DINAMICAMENTE
MUCHOS SISTEMAS AUTONOMOS COMPLEJOS (P,EJ, LAS REDES DE DISTRIBUCION ELECTRICA) REPETIDAMENTE SELECCIONAN ACCIONES CON EL FIN DE CONSEGUIR UN OBJETIVO DETERMINADO, EL APRENDIZAJE POR REFUERZO (REINFORCEMENT LEARNING, O RL) OFRECE...
MUCHOS SISTEMAS AUTONOMOS COMPLEJOS (P,EJ, LAS REDES DE DISTRIBUCION ELECTRICA) REPETIDAMENTE SELECCIONAN ACCIONES CON EL FIN DE CONSEGUIR UN OBJETIVO DETERMINADO, EL APRENDIZAJE POR REFUERZO (REINFORCEMENT LEARNING, O RL) OFRECE UNA INFRAESTRUCTURA PODEROSA PARA ADQUIRIR COMPORTAMIENTO ADAPTIVO EN ESTE CONTEXTO, ASOCIANDO UN REFUERZO ESCALAR CON CADA ACCION Y APRENDIENDO POR EXPERIENCIA QUE ACCION SELECCIONAR PARA MAXIMIZAR EL REFUERZO DE LARGO PLAZO, AUNQUE RL HA PRODUCIDO RESULTADOS IMPRESIONANTES RECIENTEMENTE (P,EJ, CONSEGUIR UN NIVEL COMPARABLE AL HUMANO EN LOS JUEGOS DE ATARI Y GANAR AL CAMPEON MUNDIAL EN EL JUEGO DE TABLERO GO), LA MAYORIA DE SOLUCIONES EXISTENTES SOLO FUNCIONAN BAJO RESTRICCIONES FUERTES: EL MODELO DEL ENTORNO ESTA ESTACIONARIO, EL OBJETIVO ESTA INALTERABLE Y LOS EXPERIMENTOS ACABAN UNA VEZ QUE EL OBJETIVO SE HA CONSEGUIDO,ESTE PROYECTO ASPIRA A AVANZAR EL ESTADO DE ARTE DE LA INVESTIGACION FUNDAMENTAL DEL LIFELONG RL (ES DECIR, LOS ALGORITMOS QUE SIGUEN APRENDIENDO DURANTE UN PERIODO EXTENSO), DESARROLLANDO VARIOS ALGORITMOS NUEVOS DE RL QUE RELAJAN LAS RESTRICCIONES MENCIONADAS ARRIBA, LOS ALGORITMOS NUEVOS DEBERIAN SER ROBUSTOS A LOS CAMBIOS EN EL ENTORNO, TANTO EN TERMINOS DE LAS OBSERVACIONES QUE EL SISTEMA PUEDE HACER, COMO DE LAS ACCIONES QUE EL SISTEMA PUEDE TOMAR, ADICIONALMENTE, LOS ALGORITMOS DEBERIAN SER CAPACES DE OPERAR DURANTE LOS PERIODOS LARGOS DE TIEMPO Y CONSEGUIR OBJETIVOS DIFERENTES,LOS ALGORITMOS PROPUESTOS ABORDARAN TRES PROBLEMAS CLAVE RELACIONADOS CON EL LIFELONG RL: LA PLANIFICACION, LA EXPLORACION Y LA DESCOMPOSICION EN TAREAS, LA PLANIFICACION ES EL PROBLEMA DE CALCULAR UN ESTRATEGIA DE SELECCION DE ACCIONES DADO UN MODELO (POSIBLEMENTE PARCIAL) DE LA TAREA POR RESOLVER, LA EXPLORACION ES EL PROBLEMA DE SELECCIONAR ACCIONES CON EL FIN DE MAPEAR EL ENTORNO EN VEZ DE CONSEGUIR UN OBJETIVO PARTICULAR, LA DESCOMPOSICION EN TAREAS ES EL PROBLEMA DE DEFINIR DIFERENTES OBJETIVOS Y ASIGNAR UN ESTRATEGIA DE SELECCION DE ACCIONES DIFERENTE PARA CADA UNO, LOS ALGORITMOS SE EVALUARAN EN DOS ESCENARIOS REALISTAS: LA GESTION ACTIVA DE LAS REDES DE DISTRIBUCION ELECTRICA, Y LA GESTION DE LAS MICROREDES, UN PROTOCOLO DE TESTEO SE DESARROLLARA PARA EVALUAR TANTO CADA ALGORITMO INDIVIDUAL COMO LA COMBINACION DE ELLOS, SISTEMAS AUTÓNOMOS\APRENDIZAJE POR REFUERZO\APRENDIZAJE DE LARGO PLAZO\PLANIFICACIÓN\EXPLORACIÓN\DECOMPOSICIÓN EN TAREASver más
Seleccionando "Aceptar todas las cookies" acepta el uso de cookies para ayudarnos a brindarle una mejor experiencia de usuario y para analizar el uso del sitio web. Al hacer clic en "Ajustar tus preferencias" puede elegir qué cookies permitir. Solo las cookies esenciales son necesarias para el correcto funcionamiento de nuestro sitio web y no se pueden rechazar.
Cookie settings
Nuestro sitio web almacena cuatro tipos de cookies. En cualquier momento puede elegir qué cookies acepta y cuáles rechaza. Puede obtener más información sobre qué son las cookies y qué tipos de cookies almacenamos en nuestra Política de cookies.
Son necesarias por razones técnicas. Sin ellas, este sitio web podría no funcionar correctamente.
Son necesarias para una funcionalidad específica en el sitio web. Sin ellos, algunas características pueden estar deshabilitadas.
Nos permite analizar el uso del sitio web y mejorar la experiencia del visitante.
Nos permite personalizar su experiencia y enviarle contenido y ofertas relevantes, en este sitio web y en otros sitios web.