Descripción del proyecto
EN LOS ULTIMOS AÑOS SE ESTA PRODUCIENDO UNA AUTENTICA REVOLUCION EN EL MUNDO DEL APRENDIZAJE AUTOMATICO DEBIDO AL DEEP LEARNING, BASADO EN LA UTILIZACION DE REDES NEURONALES ARTIFICIALES PROFUNDAS (O SIMPLEMENTE REDES PROFUNDAS), ESTAS REDES YA HAN CONSEGUIDO MEJORAR EL ESTADO DEL ARTE EN RECONOCIMIENTO DE IMAGENES, DE VIDEO, DE VOZ Y DE ESCRITURA MANUSCRITA, ENTRE OTROS AMBITOS, CONSCIENTES DEL POTENCIAL DE LAS REDES PROFUNDAS, YA DURANTE NUESTRO PROYECTO COORDINADO ANTERIOR (CENTRADO EN COMPENSAR LA VARIABILIDAD DE LA SEÑAL DE VOZ MEDIANTE I-VECTORS Y PROBABILISTIC LINEAR DISCRIMINANT ANALYSIS, PLDA) HEMOS CONSEGUIDO DESARROLLAR SISTEMAS BASADOS EN DISTINTOS TIPOS DE REDES PROFUNDAS MEJORANDO EL RENDIMIENTO DEL ESTADO DEL ARTE EN VARIOS AMBITOS, EN CONCRETO, HEMOS DESARROLLADO, EN COLABORACION CON GOOGLE RESEARCH, UN SISTEMA DE RECONOCIMIENTO DEL IDIOMA BASADO EN REDES PROFUNDAS DEL TIPO LONG SHORT-TERM MEMORY (LSTM) RECURRENT NEURAL NETWORK (RNN) QUE CONSIGUE REDUCIR CASI EN UN 50% EL ERROR DE LOS SISTEMAS I-VECTOR PLDA DE GOOGLE, POSTERIORMENTE, HEMOS IMPLEMENTADO UNA VERSION OPEN-SOURCE BASADA EN ESTE SISTEMA SOBRE UN UNICO SERVIDOR GPU (GRAPHICAL PROCESSING UNIT), POR OTRO LADO, EN COLABORACION CON LA BRNO UNIVERSITY OF TECHNOLOGY (BUT), HEMOS DESARROLLADO UN SISTEMA DE RECONOCIMIENTO DE LOCUTOR QUE A PARTIR DE BOTTLENECK FEATURES EXTRAIDAS DE UNA RED PROFUNDA APLICADAS A UN SISTEMA I-VECTOR PLDA MEJORA EN MAS DE UN 25% EL MEJOR SISTEMA I-VECTOR PLDA DE BUT, FINALMENTE, TAMBIEN HEMOS DESARROLLADO UN SISTEMA DE RECONOCIMIENTO DE IDIOMA BASADO EN REDES PROFUNDAS CONVOLUCIONALES QUE CONSIGUE RESULTADOS COMPARABLES AL SISTEMA I-VECTOR PLDA CON CIEN VECES MENOS PARAMETROS A ENTRENAR, RESULTANDO POR TANTO ENORMEMENTE MAS LIGERO Y PORTABLE,CON ESTOS ANTECEDENTES, ESTE PROYECTO SURGE CON EL OBJETIVO DE PROFUNDIZAR EN LA INVESTIGACION SOBRE LA APLICACION DE LAS REDES PROFUNDAS, COMPARANDOLAS Y COMBINANDOLAS CON LOS MODELOS BASADOS EN SUBESPACIOS, EN APLICACIONES DE PROCESADO DE VOZ, Y OTRAS APLICACIONES RELACIONADAS, PARA CONSEGUIR COMO RESULTADO MEJORAS TECNOLOGICAS EN TODAS LAS APLICACIONES OBJETIVO, LAS PRINCIPALES APLICACIONES OBJETIVO DEL PROYECTO SON LA DETECCION Y SEGUIMIENTO DEL LOCUTOR, DEL IDIOMA Y DE PATOLOGIAS RELACIONADAS CON ENFERMEDADES DEGENERATIVAS COMO LA APNEA, EL DETERIORO COGNITIVO Y EL ALZHEIMER, TODAS ELLAS YA ESTABAN PRESENTES EN EL PROYECTO ANTERIOR, LO QUE NOS PERMITIRA DESARROLLAR Y MADURAR LA TECNOLOGIA DE REDES PROFUNDAS SOBRE UNA BASE SOLIDA, COMO DE HECHO, YA ESTAMOS HACIENDO EN LOS AMBITOS DEL RECONOCIMIENTO DEL LOCUTOR Y DEL IDIOMA, Y EN EL AMBITO DE LA DETECCION DE LA APNEA, DONDE CONTAMOS CON LA MAYOR BASE DE DATOS DEL MUNDO PARA DETECCION DE APNEA SOBRE LA SEÑAL DE VOZ, POSTERIORMENTE PROPONEMOS APLICAR Y EVALUAR DICHA TECNOLOGIA EN NUEVAS APLICACIONES RELACIONADAS CON EL PROCESADO DE VOZ COMO LA BUSQUEDA DE PALABRAS CLAVE EN VOZ Y LA SEGMENTACION DE AUDIO, FINALMENTE APLICAREMOS Y EVALUAREMOS LAS TECNOLOGIAS DESARROLLADAS A NUEVAS APLICACIONES DE PROCESADO DE SEÑALES TEMPORALES, COMO EL ANALISIS DE SEÑALES DE SENSORES DE SMARTPHONES PARA LA DETECCION DE PATRONES DE ACTIVIDAD Y CONDUCCION, Y EL MODELADO Y ANALISIS DE SERIES TEMPORALES FINANCIERAS,ESTE SUBPROYECTO SE CENTRA EN LAS APLICACIONES DE DETECCION DE LOCUTOR, IDIOMA, PALABRAS CLAVE, SEGMENTACION DE AUDIO Y ANALISIS DE SERIES TEMPORALES FINANCIERAS, PROCESAMIENTO DE VOZ\REDES PROFUNDAS\MODELOS DE SUB-ESPACIOS\IDIOMA\LOCUTOR\PALABRAS CLAVE\AUDIO\APNEA\DETERIORO COGNITIVO