Descripción del proyecto
EL PROYECTO EMERALD (EMERGING TRENDS IN DATA ANALYSIS) TIENE COMO PRINCIPAL OBJETIVO EL DESARROLLO DE NUEVAS METODOLOGIAS/PROPUESTAS PARA EL ANALISIS DE DATOS, Y SU APLICACION A LA RESOLUCION DE PROBLEMAS EN LOS AMBITOS DE LA BIOMEDICINA Y LA EDUCACION, EN ESTE SENTIDO, SE BUSCARAN SOLUCIONES A LOS PROBLEMAS PLANTEADOS, DISEÑANDO NUEVOS ALGORITMOS O ADAPTANDO ALGUNOS EXISTENTES A LAS CARACTERISTICAS DEL PROBLEMA EN CUESTION, DESARROLLANDO METODOLOGIAS DE TRABAJO SISTEMATICO PARA SU RESOLUCION Y VALIDANDO EL TRABAJO REALIZADO CON CONJUNTOS DE DATOS EXTRAIDOS DE DOMINIOS REALES, POR ULTIMO, PERO NO MENOS IMPORTANTE, SE DESARROLLARAN APLICACIONES QUE DEN SOPORTE A LAS METODOLOGIAS PLANTEADAS CON UNA INTERFAZ INTUITIVA, ORIENTADA A PERSONAS ESPECIALIZADAS EN EL DOMINIO DE APLICACION PERO SIN GRANDES CONOCIMIENTOS DE PROGRAMACION O DE LAS HERRAMIENTAS DE PROPOSITO GENERAL (WEKA, R,
) QUE SE USAN EN ESTAS TAREAS,CON RESPECTO A LOS PARADIGMAS DE MINERIA DE DATOS QUE ABARCA ESTE PROYECTO, CONSIDERANDO LA NATURALEZA DE LOS PROBLEMAS PLANTEADOS, SE DESARROLLARAN TANTO MODELOS PREDICTIVOS (CLASIFICACION Y REGRESION) COMO MODELOS DESCRIPTIVOS (MINERIA DE PATRONES Y EXTRACCION DE SUBCONJUNTOS DE INTERES), EN AMBOS CASOS, Y DEPENDIENDO DEL PROBLEMA, SE UTILIZARAN REPRESENTACIONES DE DATOS CONVENCIONALES, Y OTRAS REPRESENTACIONES MAS FLEXIBLES TALES COMO EL USO DE MULTI-INSTANCIAS Y/O DATOS CON MULTIPLE TARGETS, ADEMAS, EN EL CASO DE MODELOS PREDICTIVOS, SE PONDRA UN ENFASIS ESPECIAL EN LA INTERPRETABILIDAD DE LOS MODELOS, DESARROLLANDO SIEMPRE MODELOS DE CAJA BLANCA (BIEN DIRECTAMENTE O A PARTIR DE MODELOS DE CAJA NEGRA, MAS EXACTOS),JUNTO CON LOS MODELOS BASADOS EN PROPUESTAS TRADICIONALES, IMPLEMENTADOS EN LENGUAJES DE PROGRAMACION CLASICOS (JAVA) O EN ALGUNOS DE LOS QUE SE HAN VUELTO MAS POPULARES PARA EL ANALISIS DE DATOS (PYTHON, JULIA Y R), EL PROYECTO DEDICARA UNA ATENCION ESPECIAL AL DESARROLLO DE MODELOS EN EL CONTEXTO DE LA PLATAFORMA MAP-REDUCE BAJO EL FRAMEWORK SPARK, LO QUE VIENE A SER UNA EVOLUCION NATURAL DE NUESTROS TRABAJOS PREVIOS EN TEMAS DE ESCALABILIDAD USANDO MODELOS PARALELOS SOBRE PLATAFORMAS MULTI-CORE Y GPUS, EN ESTE SENTIDO, TAMBIEN RESULTARA DE INTERES EL DESARROLLO DE MODELOS DE DEEP LEARNING (LOS CUALES HAN MOSTRADO UN COMPORTAMIENTO EXCEPCIONAL EN MULTITUD DE PROBLEMAS) COMBINADOS CON REPRESENTACIONES MAS FLEXIBLES DE DATOS EN CASO DE QUE SEA CONVENIENTE, COMO YA SE HA COMENTADO, LA DIMENSION PRACTICA DE ESTE PROYECTO ES NOTORIA, COMO MUESTRA LA GRAN IMPORTANCIA DADA AL DESARROLLO DE SOLUCIONES PARA LOS PROBLEMAS PLANTEADOS, EN EL AMBITO DE LA EDUCACION, SE DESARROLLARAN MODELOS DE DIAGNOSTICO PRECOZ, Y SE ANALIZARA LA REUTILIZACION DE ESTOS MODELOS ENTRE DISTINTOS CONJUNTOS DE ESTUDIANTES, TAMBIEN SE DESARROLLARAN MODELOS PARA REFINAR LA AUTOEVALUACION Y LA EVALUACION POR PARES DE LOS ESTUDIANTES Y, POR ULTIMO, SE DESARROLLARAN MODELOS DE RECOMENDACION DE MATERIALES DIDACTICOS PARA ESTUDIANTES CON CARACTERISTICAS SIMILARES, EN EL AMBITO BIOSANITARIO, SE DESARROLLARAN MODELOS DE DIAGNOSTICO PRECOZ DE MELANOMA, SE ANALIZARAN PATRONES TEMPORALES DE HIPERTENSION ARTERIAL, RELACIONANDOLOS CON LAS DISTINTAS PATOLOGIAS QUE LOS PUEDEN OCASIONAR, SE BUSCARAN PATRONES RELACIONADOS CON EL DESARROLLO DE COMPLICACIONES TRAS INTERVENCIONES PARA LA EXTIRPACION DE CANCER COLORRECTAL Y, POR ULTIMO, SE ANALIZARAN QUE FACTORES DE EXPRESION GENICA SON LOS RESPONSABLES DE LA APARICION DE DISTINTOS TUMORES, KNOWLEDGE DISCOVERY IN DATABASES\DATA MINING\BIG DATA\FLEXIBLE REPRESENTATIONS\CLINICAL DATA MINING\EDUCATIONAL DATA MINING