Descripción del proyecto
LA CIENCIA DE DATOS (CD) ES UNA DISCIPLINA EMERGENTE, ENTRE MATEMATICAS, INFORMATICA Y ESTADISTICA, BUSCA EXTRAER INFORMACION RELEVANTE DE LOS DATOS Y DETECTAR EN ELLOS PATRONES, MUCHOS ESTADISTICOS RECONOCEMOS NUESTRA DISCIPLINA EN ESA DEFINICION, SIN EMBARGO, LA CD SE ASOCIA CON CONCEPTOS QUE SE HAN DESARROLLADO AL MARGEN DE LA ESTADISTICA, PER EJEMPLO MACHINE LEARNING (ML) O DATOS COMO TEXTOS O IMAGENES, LA APARICION DE LA CD ES UNA OPORTUNIDAD UNICA PARA LOS ESTADISTICOS, POR UN LADO, TENEMOS QUE HACER VALER NUESTRA LARGA EXPERIENCIA EN EL TRATAMIENTO Y ANALISIS DE DATOS DE DIFERENTES TIPOS Y CARACTERISTICAS, ASI COMO DE DIVERSOS TAMAÑOS, POR OTRO, TENEMOS QUE ADAPTARNOS AL ANALISIS DE GRANDES CONJUNTOS DE DATOS, ENFRENTANDONOS A AVANCES TECNOLOGICOS SIN DEMORA,EL OBJETIVO PRINCIPAL DE ESTE PROYECTO ES EXPLORAR Y EXPLOTAR LAS CONEXIONES ENTRE LA ESTADISTICA Y LA CD, MOSTRANDO COMO SE ENRIQUECEN ENTRE SI, PUES SON ENFOQUES COMPLEMENTARIOS DEL MISMO OBJETIVO: EXTRAER INFORMACION RELEVANTE DE LOS DATOS, SEGUIREMOS CUATRO DIRECCIONES:(1) MEJORAR LA INTERPRETABILIDAD DE LOS ALGORITMOS PREDICTIVOS DE ML Y, EN PARTICULAR, DE LOS BASADOS EN DEEP LEARNING, ESTO CONTINUA UN TRABAJO PREVIO DEL IP: MEDIDAS DE RELEVANCIA BASADAS EN VARIABLES FANTASMA, PROPONEMOS TRES EXTENSIONES: (I) EXTENDER EL METODO DE VARIABLES FANTASMA A PROBLEMAS DE PREDICCION CON RESPUESTAS GENERALIZADAS (DISCRETAS O CON RESTRICCIONES); (II) OBTENER EXPLICACIONES LOCALES A PARTIR DE VARIABLES FANTASMA, ES DECIR, EXPLICAR POR QUE UN MODELO DA UNA CIERTA PREDICCION CUANDO SE APLICA A UN INDIVIDUO PARTICULAR; (III) EXPLORAR LA INTERPRETABILIDAD DE MODELOS DE DEEP LEARNING PARA CONSEGUIR QUE LOS USUARIOS CONFIEN EN ESTOS MODELOS,(2) DETERMINAR LOS FACTORES QUE INFLUYEN LA MAGNITUD DE LOS EFECTOS DE LOS INCENDIOS FORESTALES, CON ESPECIAL ATENCION A LAS AREAS QUE SE QUEMAN MAS DE UNA VEZ EN UN CORTO PERIODO DE TIEMPO, ES LA CONTINUACION DE LA TESIS DOCTORAL DE UNO DE LOS MIEMBROS DEL EQUIPO, QUE TRABAJA COMO DATA SCIENTIST EN EL BARCELONA SUPERCOMPUTER CENTER, SU TESIS TIENE UNA MOTIVACION APLICADA: CUANTIFICAR LOS EFECTOS DE LOS INCENDIOS FORESTALES OCURRIDOS EN CALIFORNIA DURANTE LOS ULTIMOS 30 AÑOS, A PARTIR DE DATOS DE TELEDETECCION (IMAGENES PUBLICAS DE SATELITES LANDSAT DE LA NASA Y LA NOAA), TRAS UN AÑO DE TESIS, CONJETURAMOS QUE EL ANALISIS DE DATOS FUNCIONALES (ADF) PUEDE SER UN ENFOQUE MUY UTIL PARA DETERMINAR LOS FACTORES ASOCIADOS A LA MAGNITUD DE LOS EFECTOS DE LOS INCENDIOS,(3) EXPLORAR OTRAS APLICACIONES DEL ADF EN LA CD, EN PARTICULAR, APLICAR ADF A LA MONITORIZACION REMOTA DE PACIENTES ES UN AREA MUY PROMETEDORA, CON APLICACIONES INMEDIATAS EN LA SALUD, LOS ULTIMOS DESARROLLOS TECNOLOGICOS HACEN CADA VEZ MAS FACIL RECOGER DATOS A LO LARGO DEL TIEMPO CON LA AYUDA DE SENSORES (INCLUIDOS TELEFONOS MOVILES Y DISPOSITIVOS PORTATILES), DADO QUE ESTOS DATOS SUELEN SER CONTINUOS Y DEPENDIENTES DEL TIEMPO, EL ADF ES ADECUADO PARA SU ANALISIS, TAMBIEN PROPONEMOS UNA NUEVA FORMA DE ANALIZAR OBJETOS ALEATORIOS QUE VARIAN EN EL TIEMPO, BASADA EN UNA COMBINACION DE MULTIDIMENSIONAL SCALING (MDS) Y PCA FUNCIONAL,(4) MEJORAR LOS ALGORITMOS QUE PERMITEN APLICAR MDS A BIG DATA, EL IP Y UNO DE LOS MIEMBROS DEL EQUIPO YA HAN EXPLORADO ALGORITMOS MDS ADECUADOS PARA BIG DATA, UNO DE ELLOS, QUE SIGUE UN ENFOQUE DE DIVIDE Y VENCERAS, EN LA PRACTICA ES MAS LENTO DE LO ESPERADO, HEMOS IDENTIFICADO UNA FORMA DE MEJORARLO Y QUEREMOS EXPLORARLA COMO PARTE DE ESTE PROYECTO, APRENDIZAJE AUTOMATICO INTERPRETABLE\ANALISIS DE DATOS FUNCIONALES\IMAGENES SATELITALES\EFECTOS DE LOS INCENDIOS FORESTALES\MULTIDIMENSIONAL SCALING\APRENDIZAJE PROFUNDO\DATOS MASIVOS