Descripción del proyecto
EL PROYECTO PROPUESTO SE BASA EN EL EXITO DE UNA SERIE CONSECUTIVA DE SEIS PROYECTOS DE I+D DESDE 2003, EN PARTICULAR EL ULTIMO PROYECTO "DEEP SPEECH FOR FORENSICS AND SECURITY" (2019-21) EN EL QUE NUESTRO GRUPO INVESTIGO ACERCA DE ENFOQUES NOVEDOSOS PARA EL PROCESAMIENTO DE VOZ BASADO EN EL APRENDIZAJE PROFUNDO, QUE EN LA ACTUALIDAD Y CLARAMENTE SON EL ESTADO DEL ARTE EN APLICACIONES DE VOZ Y AUDIO. DE HECHO, TODAVIA HAY MUCHO MARGEN DE MEJORA EN ESTE PARADIGMA RECIENTE, QUE PERMITE NUEVAS POSIBILIDADES QUE PODRIAN MEJORAR LA APLICABILIDAD DEL PROCESAMIENTO DE VOZ Y AUDIO. ESTA PROPUESTA TIENE COMO OBJETIVO EXPLORAR Y DESARROLLAR NUEVOS ALGORITMOS PARA ABORDAR ESTAS POSIBILIDADES, CENTRANDOSE EN DOS DIRECCIONES PRINCIPALES DE INVESTIGACION:- ENTRENAMIENTO SEMI-SUPERVISADO O NO SUPERVISADO, QUE PERMITE ENTRENAR LOS MODELOS NEURONALES UTILIZANDO DATOS SIN ETIQUETAR AMPLIAMENTE DISPONIBLES Y (POSIBLEMENTE) SOLO UNA PEQUEÑA CANTIDAD DE DATOS CUIDADOSAMENTE ETIQUETADOS ESPECIFICOS DE LA TAREA. ESTE ENFOQUE TIENE EL POTENCIAL DE FACILITAR EL DESARROLLO DE TECNOLOGIAS DE VOZ Y AUDIO DE BAJA TASA DE ERROR ADAPTADAS A ESCENARIOS PARTICULARES CON SOLO UN PEQUEÑO CONJUNTO DE DATOS ESPECIFICOS ETIQUETADOS, AUMENTANDO ASI SUSTANCIALMENTE LA APLICABILIDAD DE ESTAS TECNOLOGIAS.- MODELOS DE APRENDIZAJE PROFUNDO MULTITAREA O MULTINIVEL. ESTOS MODELOS DE APRENDIZAJE PROFUNDO PERMITEN ENTRENAR REDES NEURONALES CON UNA COMBINACION DE DIFERENTES OBJETIVOS PARA RESOLVER VARIAS TAREAS AL MISMO TIEMPO (POR EJEMPLO, SEPARACION DE FUENTES ACUSTICAS Y DETECCION DE EVENTOS DE AUDIO), Y TAMBIEN DEFINIR MODELOS QUE PROCESEN DE FORMA NATURAL LA INFORMACION INTRINSECA MULTINIVEL PRESENTE EN HABLA (POR EJEMPLO, A NIVEL DE FONEMAS, PALABRAS, TURNOS DEL HABLANTE, INTENCION DE VARIOS TURNOS, ETC.).CON EL OBJETIVO PRINCIPAL DE MEJORAR LA APLICABILIDAD DE ESTAS TECNOLOGIAS, TAMBIEN INVESTIGAREMOS DOS TEMAS IMPORTANTES RELACIONADOS CON LA APLICACION REAL DE ESTA TECNOLOGIA Y SU IMPACTO SOCIAL:- CALIBRACION PROBABILISTICA DE REDES NEURONALES PARA AUMENTAR LA INTERPRETACION DE LAS SALIDAS DEL SISTEMA EN TERMINOS DE PROBABILIDADES. EN PARTICULAR, INVESTIGAREMOS MODELOS BAYESIANOS Y ADAPTATIVOS PARA ESTA TAREA, QUE TIENE EL POTENCIAL DE INCREMENTAR NOTABLEMENTE EL VALOR DE LAS DECISIONES DE REDES NEURONALES EN ESTOS CONTEXTOS DE APLICACION Y OTROS RELACIONADOS, AL CONSIDERAR TANTO LA INCERTIDUMBRE COMO LAS CONDICIONES DEL HABLA Y EL AUDIO.- EQUIDAD ALGORITMICA (ALGORITHMIC FAIRNESS) DE LAS DECISIONES DE REDES NEURONALES PROFUNDAS, PARA ASEGURAR QUE LAS DECISIONES TOMADAS POR LOS SISTEMAS DE REDES NEURONALES EN ESTAS APLICACIONES NO ESTEN SESGADAS EN TERMINOS DE CARACTERISTICAS PERSONALES COMO GENERO, EDAD O DIALECTOS; Y FORTALECER LA EQUIDAD Y SEGURIDAD DE LA INTELIGENCIA ARTIFICIAL CUANDO ESTA SE UTILIZA EN NUESTRAS SOCIEDADES.ESTA INVESTIGACION SE APLICARA A TRES APLICACIONES OBJETIVO: RECONOCIMIENTO Y DIARIZACION DE LOCUTOR, RECONOCIMIENTO DE VOZ Y BUSQUEDA DE PALABRAS CLAVE, Y SEPARACION DE FUENTES Y DETECCION DE EVENTOS DE AUDIO, CON UN ENFOQUE EN APLICACIONES INDUSTRIALES, DE SEGURIDAD Y DE DEFENSA. NUESTRO GRUPO TIENE UNA LARGA TRAYECTORIA DE PARTICIPACION EN MAS DE 20 DESAFIOS TECNOLOGICOS INTERNACIONALES EN ESTOS CAMPOS, Y PLANEA SEGUIR PARTICIPANDO EN ELLOS. ADEMAS, NUESTRO GRUPO HA FINALIZADO CON EXITO MULTIPLES CONTRATOS CON ADMINISTRACIONES Y EMPRESAS, Y ESPERAMOS UNA IMPORTANTE TRANSFERENCIA A LA SOCIEDAD Y A LAS ENTIDADES INTERESADAS. ROCESAMIENTO DE VOZ Y AUDIO\EQUIDAD ALGORITMICA.\CALIBRACION PROBABILISTICA\APRENDIZAJE MULTITAREA\APRENDIZAJE SEMI-SUPERVISADO\APRENDIZAJE PROFUNDO\RECONOCIMIENTO DE VOZ\CLASIFICACION DE EVENTOS DE AUDIO\BUSQUEDA DE PALABRAS CLAVE\RECONOCIMIENTO DE LOCUTORES