Descripción del proyecto
EL PROYECTO MARFIL (MINERIA DE DATOS CON REPRESENTACIONES MAS FLEXIBLES) TIENE COMO OBJETIVO EL DESARROLLO DE NUEVOS MODELOS DE EXTRACCION DE CONOCIMIENTO PARA PROBLEMAS QUE REQUIEREN UNA REPRESENTACION MAS FLEXIBLE DE LA INFORMACION:- MODELOS DE APRENDIZAJE MULTI-INSTANCIA Y APRENDIZAJE RELACIONAL, PARA REPRESENTAR EL ESPACIO DE ENTRADA DE UNA FORMA MAS FLEXIBLE,- MODELOS DE APRENDIZAJE CON MULTIPLES SALIDAS, ESPECIALMENTE APRENDIZAJE MULTI- ETIQUETA, PARA REPRESENTAR EL ESPACIO DE SALIDA DE FORMA MAS FLEXIBLE,- MODELOS DE APRENDIZAJE MULTI-FUENTE Y MULTI-VISTA, QUE NOS PERMITEN COMBINAR VARIOS CONJUNTOS DE DATOS QUE DESCRIBEN EL MISMO PROBLEMA A TRAVES DE MODELOS EXTRAIDOS PARA CADA UNO DE ESTOS CONJUNTOS, PARA LOS PARADIGMAS ENUMERADOS ANTERIORMENTE, DESARROLLAREMOS MODELOS EN LOS AMBITOS DE CLASIFICACION, AGRUPAMIENTO, ASOCIACION Y DESCUBRIMIENTO DE SUBGRUPOS, TAMBIEN ADAPTAREMOS DICHOS MODELOS A PROBLEMAS CON CARACTERISTICAS ESPECIALES, TALES COMO GRAN NUMERO DE VARIABLES, DATOS RUIDOSOS, O DESBALANCE DE DATOS, PROPORCIONANDO METODOS DE PREPROCESAMIENTO ADECUADOS Y/O MODELOS QUE TENGAN EN CUENTA ESTAS PECULIARIDADES, ALGUNOS DE ESTOS PROBLEMAS PUEDEN CONSIDERARSE DEL AMBITO DE LO QUE SE HA DADO EN DENOMINAR BIG DATA, POR LO QUE NUESTRAS PROPUESTAS SE ADAPTARAN A ESTE TIPO DE ENTORNOS, Y SE DESARROLLARAN IMPLEMENTACIONES ESCALABLES QUE SEAN CAPACES DE APORTAR SOLUCIONES APROPIADAS EN ESTOS CONTEXTOS,ADEMAS DE LA DIMENSION TEORICA DE ESTE PROYECTO, COMENTADA ANTERIORMENTE, ESTE PROYECTO PRESENTA UNA DIMENSION APLICADA, DADO QUE PRETENDEMOS RESOLVER DISTINTOS PROBLEMAS DEL MUNDO REAL APLICANDO LOS MODELOS DESARROLLADOS, EN CONCRETO, ABORDAREMOS PROBLEMAS EN LOS AMBITOS DE LA MINERIA DE DATOS EDUCATIVA (PREDICCION DEL RENDIMIENTO ACADEMICO, MODELADO DE LA AUTOEVALUACION Y DE LA EVALUACION POR PARES Y DESARROLLO DE MODELOS DE RECOMENDACION DE RECURSOS Y ACTIVIDADES PARA ESTUDIANTES) Y DE LA BIOMEDICINA (DIAGNOSTICO PRECOZ A PARTIR DEL ANALISIS DE HISTORIAS CLINICAS Y PREDICCION DE RIESGO DE ENFERMEDADES RELACIONADAS CON EL METABOLISMO DE LA INSULINA), ES NOTORIO EL INTERES SOCIAL QUE AMBOS CAMPOS DE APLICACION DESPIERTAN ACTUALMENTE EN NUESTRA SOCIEDAD, ASI COMO LA REPERCUSION QUE CUALQUIER PEQUEÑO AVANCE PUEDA TENER EN LAS COMUNIDADES EDUCATIVA Y SANITARIA, DE HECHO, ADEMAS DE NUESTRA ESTRECHA COLABORACION CON LAS INSTITUCIONES UNIVERSITARIAS INVOLUCRADAS EN EL PROYECTO, ASI COMO COMO CON EL INSTITUTO MAIMONIDES DE INVESTIGACION BIOMEDICA, EMPRESAS DE AMBOS SECTORES YA HAN MOSTRADO SU INTERES EN LOS RESULTADOS QUE PUDIERAN DERIVARSE DE ESTOS TRABAJOS, ASI PUES, EN UNA PRIMERA FASE, ANALIZAREMOS SI ESTOS NUEVOS MODELOS DE REPRESENTACION SUPONEN UN AVANCE EN LA RESOLUCION DEL PROBLEMA CON RESPECTO A LAS PROPUESTAS TRADICIONALES, EN UNA SEGUNDA FASE, COMPARAREMOS LAS PROPUESTAS YA EXISTENTES Y DESCRITAS EN LA BIBLIOGRAFIA CON NUESTRAS PROPIAS SOLUCIONES, ESPERANDO QUE ESTAS PRODUZCAN MEJORES RESULTADOS, POR ULTIMO, PERO NO MENOS IMPORTANTE, A FIN DE DAR SUFICIENTE PROMOCION A LA INVESTIGACION LLEVADA A CABO, DESARROLLAREMOS REPOSITORIOS DE DATOS DE PRUEBA PARA CADA UNO DE LOS PARADIGMAS ANALIZADOS, QUE PERMITAN A LA COMUNIDAD CIENTIFICA LA REPLICACION DE NUESTRA EXPERIMENTACION Y SIRVAN DE BENCHMARK PARA LA COMPARACION EXHAUSTIVA DE RESULTADOS, ADEMAS, INTEGRAREMOS LOS MODELOS DESARROLLADOS EN LAS PLATAFORMAS SOFTWARE DE MAYOR RELEVANCIA ACTUAL (WEKA, KEEL, MAHOUT Y SPARK), PARA FACILITAR LA DIFUSION DE LOS MISMOS, MINERÍA DE DATOS\REPRESENTACIONES DE DATOS FLEXIBLES\APRENDIZAJE MULTI-INSTANCIA\APRENDIZAJE MULTI-ETIQUETA\APRENDIZAJE RELACIONAL\APRENDIZAJE MULTI-VISTA\BIG DATA\MINERÍA DE DATOS EDUCATIVOS\MINERÍA DE DATOS BIOMÉDICOS