Descripción del proyecto
EN ESTE PROYECTO SE PLANTEA EL DESARROLLO UN LENGUAJE DE PROGRAMACION PROBABILISTICO COMPATIBLE CON UN MODELO DE COMPUTACION DISTRIBUIDO COMO MAPREDUCE, ESTE LENGUAJE SE IMPLEMENTARA COMO UNA API EN JAVA PARA QUE EL USUARIO PUEDA MEZCLAR CODIGO PROBABILISTICO Y NO PROBABILISTICO EN SU APLICACION Y SERA INTEGRADO EN SPARK Y FLINK, DOS PLATAFORMAS PARA EL PROCESAMIENTO DE GRANDES VOLUMENES DE DATOS, EL LENGUAJE SERA DESARROLLADO COMO UN PROYECTO DE SOFTWARE ABIERTO LIBREMENTE DISPONIBLE PARA LA COMUNIDAD CIENTIFICA Y PROFESIONAL INTERESADA EN EL EMPLEO DE TECNICAS DE APRENDIZAJE MAQUINA (ML POR SUS SIGLAS EN INGLES) SOBRE GRANDES VOLUMENES DE DATOS, EL CAMPO DE ML ES UN CAMPO DE INVESTIGACION AMPLIAMENTE ESTABLECIDO QUE ESTA APORTANDO MUCHAS SOLUCIONES A GRANDES PROBLEMAS DE LA SOCIEDAD: MOTORES DE BUSQUEDA, ANALISIS DE DATOS GENETICOS, COCHES AUTONOMOS, ETC, LA DISPONIBILIDAD ACTUAL POR PARTE DE GOBIERNOS, INSTITUCIONES Y CORPORACIONES DE GRANDES VOLUMENES DE DATOS ESTA ACELERANDO EL DESARROLLO DE ESTE TIPO DE APLICACIONES, SIN EMBARGO, DESARROLLAR UN ALGORITMO ML QUE SE AJUSTE A UN PROBLEMA ESPECIFICO EXIGE DE EXPERTOS CON CONOCIMIENTOS EN VARIOS CAMPOS COMO EL DE ESTADISTICA, MODELADO PROBABILISTICO, ALGORITMOS DE OPTIMIZACION, ETC, ESTO SE TRADUCE, EN LA MAYORIA DE LOS CASOS, EN LA NECESIDAD DE CONTAR CON PERSONAS ALTAMENTE CUALIFICADAS QUE, O BIEN NO ESTAN DISPONIBLES EN EL MERCADO DE TRABAJO O SUPONEN UN ALTO COSTE PARA EL PROYECTO, EN EL CASO DE TRATAR CON GRANDES VOLUMENES DE DATOS, ESTOS PROBLEMAS SE AGUDIZAN PUESTO QUE ADEMAS SE REQUIERE QUE EL ALGORITMO ML DISEÑADO SEA PARALELIZABLE Y ESCALABLE, TODOS ESTOS FACTORES ESTAN LASTRANDO EL DESARROLLO DE APLICACIONES ML Y HACIENDO QUE, EN MUCHOS CASOS, SOLO SEAN LAS GRANDES CORPORACIONES LAS QUE TENGAN LA CAPACIDAD TECNICA Y FINANCIERA PARA LLEVARLOS A CABO, POR ESTAS RAZONES, LA PRESTIGIOSA AGENCIA AMERICANA DE PROYECTOS DE INVESTIGACION AVANZADOS DE DEFENSA (DARPA POR SU SIGLAS EN INGLES) TIENE ACTUALMENTE ABIERTO UN PROGRAMA DE FONDOS PARA INVESTIGACION EN EL AREA DE LOS LENGUAJES DE PROGRAMACION PROBABILISTICOS (PPLS POR SUS SIGLAS EN INGLES), DE ACUERDO CON ESTA AGENCIA, LOS PPLS PODRIAN OFRECER UNA SOLUCION A TODOS ESTOS PROBLEMAS, PUESTO QUE PERMITEN SEPARAR LA ESPECIFICACION DEL MODELO DEL ALGORITMO DE APRENDIZAJE, PARA MUCHOS EXPERTOS, LOS PPLS PODRIAN REVOLUCIONAR EL CAMPO DE ML Y DE MODELADO CIENTIFICO DE LA MISMA MANERA QUE LA APARICION DE LOS LENGUAJES DE PROGRAMACION DE ALTO NIVEL REVOLUCIONARON EL CAMPO DE DESARROLLO SOFTWARE HACE CINCUENTA AÑOS, AL LIBERAR A LOS PROGRAMADORES DE LA NECESIDAD DE CONOCER LOS DETALLES DEL HARDWARE SOBRE EL QUE SE EJECUTABA SU PROGRAMA, UNO DE LOS PRINCIPALES PROBLEMAS, AUN NO RESUELTOS EN ESTE CAMPO, ES EL DESARROLLO DE PPLS QUE CUENTEN CON UN MOTOR DE INFERENCIA QUE SEA ESCALABLE Y QUE TENGA LA CAPACIDAD DE PROCESAR GRANDES VOLUMENES DE DATOS, EN ESTE PROYECTO PRETENDEMOS EXTENDER Y ADAPTAR LOS DESARROLLOS OBTENIDOS EN EL PROYECTO EUROPEO AMIDST (FP7-ICT-619209) PARA LOGRAR ESTE OBJETIVO, EN EL PROYECTO AMIDST, EN EL QUE PARTICIPAN TANTO EL INVESTIGADOR PRINCIPAL COMO EL INVESTIGADOR TUTOR, SE HAN DESARROLLADO ALGORITMOS ESCALABLES DE INFERENCIA PARA MODELOS GRAFICOS PROBABILISTICOS CAPACES DE ANALIZAR FLUJOS MASIVOS DE DATOS, EL PROYECTO INFER,JAVA PRETENDE DEFINIR UN PPL CUYOS PROGRAMAS SEAN COMPILABLES A UN MODELO GRAFICO PROBABILISTICO Y CONSTRUIR ASI UN MOTOR DE INFERENCIA ESCALABLE PARTIENDO DE LOS DESARROLLOS DE AMIDST, APRENDIZAJE MÁQUINA\LENGUAJES DE PROGRAMACIÓN PROBABILÍSTICO\MODELOS GRÁFICOS PROBABILÍSTICOS\BIG DATA