Descripción del proyecto
EN LA GRAN MAYORIA DE AREAS CIENTIFICAS NUESTRA HABILIDAD PARA OBTENER INFORMACION ESTA CRECIENDO A TAL VELOCIDAD QUE NUESTRA CAPACIDAD DE INTERPRETAR DICHA INFORMACION ESTA SIENDO PUESTA A PRUEBA. ES POR ELLO QUE LA NECESIDAD DE ESCALAR LOS ALGORITMOS INDUCTIVOS Y DE MINERIA DE DATOS ESTA PRESENTE EN CUALQUIER PROBLEMA DE APRENDIZAJE AUTOMATICO. EN EL PRESENTE PROYECTO PLANEAMOS EL DESARROLLO DE UN MARCO GENERAL PARA EL ESCALADO DE ALGORITMOS DE MINERIA DE DATOS.NUESTRO OBJETIVO PRINCIPAL ES SUPERAR EL PROBLEMA DE ESCALADO DE LOS ALGORITMOS DE MINERIA DE DATOS USANDO COMO BASE UN NUEVO METODO DESARROLLADO POR NUESTRO GRUPO DE INVESTIGACION, DENOMINADO DEMOCRATIZACION. A PARTIR DE ESTE METODO, QUE HA PROBADO SU EFICIENCIA EN EL ESCALADO DE ALGORITMOS DE SELECCION DE INSTANCIAS A GRANDES CONJUNTOS DE DATOS, PROPONEMOS EL DISEÑO DE UN MARCO GENERAL PARA EL ESCALADO DE ALGORITMOS DE MINERIA DE DATOS.COMO SEGUNDO OBJETIVO PROPONEMOS LA EXTENSION DE ESTE MARCO PARA EL ESCALADO DE ALGORITMOS EN PROBLEMAS DESEQUILIBRADOS EN LA DISTRIBUCION DE CLASES. LA BASE DE LA METODOLOGIA PROPUESTA ES MUY APROPIADA PARA PROBLEMAS DESEQUILIBRADOS DADO QUE LA FILOSOFIA SUBYACENTE AL SUBMUESTREO, EL SOBREMUESTREO Y EL SUBMUESTREO CON INFORMACION PUEDE SER ADAPTADA DE FORMA SENCILLA A NUESTRO MACRO PROPUESTO.EN NINGUN OTRO CAMPO ES LA NECESIDAD DEL ESCALADO TAN RELEVANTE COMO EN LA BIOINFORMATICA. LA ENORME CANTIDAD DE INFORMACION DISPONIBLE, JUNTO CON LA IMPORTANCIA DE LOS PROBLEMAS TRATADOS, HACE MUY IMPORTANTE LA NECESIDAD DE METODOS ESCALABLES. POR ELLO HEMOS ESCOGIDO ESTE AREA CIENTIFICA COMO EL CAMPO DE APLICACION DE LOS METODOS DESARROLLADOS EN ESTE PROYECTONUESTRO OBJETIVO SERA EL ESCALADO DE LOS PROGRAMAS DE RECONOCIMIENTO DE GENES, PERSIGUIENDO LA APLICACION DE LOS PROGRAMAS MAS UTILES Y ACERTADOS A GENOMAS COMPLETOS. NUESTRO METODO PERMITIRA LA ANOTACION AUTOMATICA MASIVA USANDO CLUSTERS DE ORDENADORES DE TAMAÑO MODERADO, EN LUGAR DE SUPERCOMPUTADORES DE PRECIO MUY ELEVADO.PARA EXPLOTAR COMPLETAMENTE EL POTENCIAL DE LA METODOLOGIA PROPUESTA, APLICAREMOS LOS CONCEPTOS DESARROLLADOS NO SOLO AL ESCALADO DE UN UNICO PROGRAMA DE RECONOCIMIENTO, SINO TAMBIEN A LA COMBINACION DE DIFERENTES PROGRAMAS. DADO QUE LA COMBINACION DE PROGRAMAS ES UNA DE LAS AREAS DE INVESTIGACION MAS PROMETEDORAS, NUESTRO OBJETIVO FINAL ES PRODUCIR RECONOCEDORES DE GENES NO SOLO MAS RAPIDOS, SINO INCLUSO MAS ACERTADOS.COMO RESUMEN DE LOS OBJETIVOS PODEMOS INDICAR LOS SIGUIENTES1. DESARROLLO DE UNA MARCO GENERAL PARA EL ESCALADO DE ALGORITMOS DE MINERIA DE DATOS BASADO EN LA DEMOCRATIZACION.2. ESTUDIO TEORICO DEL MARCO DESARROLLADO PARA EL ESCALADO DE ALGORITMOS DE MINERIA DE DATOS BASADO EN LA DEMOCRATIZACION.3. APLICACION DEL MARCO DESARROLLADO A DOS TAREAS DE MINERIA DE DATOS: SELECCION DE CARACTERISTICAS Y CONSTRUCCION DE AGRUPACIONES DE CLASIFICADORES.4. DESARROLLO DE UN MARCO DE DEMOCRATIZACION PARA LOS PROBLEMAS DESEQUILIBRADOS. APLICACION A TRES PROBLEMAS DE MINERIA DE DATOS: SELECCION DE INSTANCIAS, SELECCION DE CARACTERISTICAS Y CONSTRUCCION DE AGRUPACIONES DE CLASIFICADORES.5. APLICACION DE LOS METODOS DESARROLLADOS AL PROBLEMA DE LA PREDICCION DE LA ESTRUCTURA DE LOS GENES, DADO QUE ESTA TAREA ESTA MUY AFECTADA POR LOS PROBLEMAS TRATADOS EN EL PRESENTE PROYECTO: ESCALADO DE LOS METODOS Y DESEQUILIBRIO EN LA DISTRIBUCION DE LAS CLASES.6. APLICACION DE LOS METODOS DESARROLLADOS AL RECONOCIMIENTO DE PUNTOS FUNCIONALES EN SECUENCIAS DE DNA. INERIA DE DATOS; SCALADO; PREDICCION DE