Descripción del proyecto
EN LA ERA DE LA EXAESCALA, SE ESPERA QUE TRABAJOS PARALELOS MUY GRANDES SE EJECUTEN EN UN NUMERO ASOMBROSO DE PROCESADORES, POR LO QUE EL TIEMPO MEDIO ENTRE FALLOS SERA DE UNOS 30 MINUTOS O INCLUSO MENOS DEBIDO A ERRORES SILENCIOSOS (SE) CAUSADOS POR RADIACION COSMICA, ENTRE OTROS, ESTE HECHO SE HA CONVERTIDO EN UNA PIEDRA ANGULAR EN EL CAMINO HACIA LA PROXIMA GENERACION DE SUPERCOMPUTADORES, POR LO TANTO, SE NECESITAN NUEVAS FUNCIONES DE MANEJO DE ERRORES, DETECCION DE ERRORES E IMPLEMENTACIONES DE SOFTWARE A NIVEL DE SISTEMA Y/O APLICACION PARA PROPORCIONAR TOLERANCIA A FALLOS CONTRA ERRORES SILENCIOSOS, ESTA PROPUESTA ABORDA PRECISAMENTE ESTA ASEVERACION, SE HAN LOGRADO AVANCES TECNICOS EN RESILIENCIA EN LOS ULTIMOS AÑOS, PERO EL PROBLEMA NO ESTA COMPLETAMENTE RESUELTO Y LA COMUNIDAD AUN SE ENFRENTA AL DESAFIO DE GARANTIZAR QUE LAS FUTURAS APLICACIONES DE EXASCALA SE EJECUTEN SATISFACTORIAMENTE Y GENEREN RESULTADOS CORRECTOS MIENTRAS CORREN EN SISTEMAS INESTABLES, TRATANDO DE EVITAR LA INANICION Y LOS BLOQUEOS Y PERDIDAS DE RENDIMIENTO,EL PRINCIPAL OBJETIVO DE ESTE PROYECTO ES SOBREPONERSE A ERRORES SILENCIOSOS CON UNA APROXIMACION MULTIDISCIPLINAR, PRIMERO, SE OBTENDRA UNA CARACTERIZACION COMPLETAMENTE EXPERIMENTAL DE SE PRODUCIDOS EN VARIOS PROCESADORES Y TARJETAS CAUSADOS POR EL FLUJO DE NEUTRONES RECIBIDO, ESTOS DATOS, EN COMBINACION CON LOS RESULTADOS OBTENIDOS POR SIMULACION NUMERICA, CONTRIBUIRAN A UNA CARACTERIZACION GEOESPACIAL Y TEMPORAL PRECISA DE LA RADIACION DE RAYOS COSMICOS RECIBIDA EN CUALQUIER CENTRO DE PROCESO DE DATOS, EL TERCER OBJETIVO IMPORTANTE APUNTA A NUEVOS DESARROLLOS MATEMATICOS PARA SUPERAR EL SE BASADOS EN METODOS TOLERANTES A FALLOS, QUE ESTA ESTRECHAMENTE RELACIONADO CON LA CARACTERIZACION DE SE ANTES MENCIONADA, TANTO LA INYECCION NUMERICA DE SE ACELERADA COMO EL BOMBARDEO EXPERIMENTAL DE NEUTRONES SON IMPORTANTES PARA COMPRENDER Y CUANTIFICAR LAS MEJORAS ALGORITMICAS, ESTAS PRUEBAS NUMERICAS EXPERIMENTALES TAMBIEN PROPORCIONARAN VALIOSAS APORTACIONES PARA ESTUDIAR LOS PERIODOS OPTIMOS DE PUNTO DE CONTROL Y DE TIEMPO MEDIO ENTRE FALLOS QUE SE LLEVARAN A CABO COMO PARTE DE LA INVESTIGACION, POR ULTIMO, LAS METODOLOGIAS DE SOFTWARE Y MIDDLEWARE TRANSPARENTES Y AGNOSTICAS PARA SUPERAR EL SE EN LOS CLUSTERES BASADOS EN LOS AVANCES PRODUCIDOS EN EL MARCO DE LOS DESARROLLOS MATEMATICOS SE REALIZARAN E INTEGRARAN EN GESTORES DE RECURSOS (SLURM) MEJORANDO LA EFICIENCIA COMPUTACIONAL Y ENERGETICA, LA VISION GLOBAL DEL PRESENTE ENFOQUE PROPORCIONA UNA SOLUCION MULTIDISCIPLINAR A LOS AGENTES ESPAÑOLES DEL SISTEMA DE CIENCIA, TECNOLOGIA E INNOVACION, Y ESTA ALINEADA CON LAS ACTIVIDADES DE INVESTIGACION PROPUESTAS EN LA 3ª EDICION DE LA AGENDA ESTRATEGICA DE INVESTIGACION DE ETP4HPC (SRA3), A SABER: CARACTERIZACION DE FALLOS DE HARDWARE; DESARROLLO DE UN MODELO ESTANDARIZADO DE MANEJO DE FALLOS; PREDICCION, CONTENCION, DETECCION, NOTIFICACION Y RECUPERACION MEJORADOS DE FALLO; PROGRAMACION DE ABSTRACCIONES PARA LA RESILIENCIA; Y, EVALUACION ESTANDARIZADA DE ENFOQUES DE TOLERANCIA A FALLOS, TOLERANCIA A FALLOS\PUNTOS DE CHEQUEO\ERRORES SILENCIOSOS\EFICIENCIA COMPUTACIONAL\RADIACIÓN NEUTRÓNICA\RAYOS CÓSMICOS\MATRIZ DISPERSA