Descripción del proyecto
LA RAZON PRINCIPAL DEL EXITO DE LA COMUNICACION ENTRE HUMANOS EN ESCENARIOS ESPONTANEOS Y CON CONDICIONES ADVERSAS ES NUESTRA CAPACIDAD NATURAL PARA EXPLOTAR E INTEGRAR CONOCIMIENTO A PRIORI E INFORMACION CONTEXTUAL, SIN EMBARGO, TANTO LAS APLICACIONES ACTUALES DE RECONOCIMIENTO BASADAS EN VOZ (YA SEAN DE HABLA, LOCUTOR O IDIOMA) COMO LOS SISTEMAS INTERACTIVOS, SE BASAN PRINCIPALMENTE EN LA INFORMACION DISPONIBLE EN LA SEÑAL DE ENTRADA, O, COMO MUCHO, EN UNA DESCRIPCION LOGICA O FUNCIONAL DEL DOMINIO DE APLICACION, COMO CONSECUENCIA, LOS RESULTADOS DE TODAS ESTAS TECNOLOGIAS SE VEN MUY INFLUENCIADOS POR UNA GRAN VARIEDAD DE SITUACIONES CONTEXTUALES DIFERENTES, DESDE DIVERSIDAD DE CONDICIONES DE ADQUISICION, COMO ES EL CASO DE LAS DIFERENCIAS INTER-SESION (CANAL, TIPO DE VOZ, ¿) O LOS ENTORNOS ACUSTICOS RUIDOSOS O REVERBERANTES, HASTA CONTEXTOS DE USUARIO Y COMPORTAMIENTOS DIFERENTES,CENTRANDONOS AHORA EN LOS SISTEMAS DE RECONOCIMIENTO BASADOS EN VOZ, RECIENTEMENTE SE HA DEMOSTRADO QUE LAS TECNICAS DE ANALISIS DE FACTORES (FACTOR ANALISIS) SON MUY UTILES PARA INTRODUCIR INFORMACION A PRIORI ESTIMADA A PARTIR DE GRANDES CANTIDADES DE DATOS, DE MODO QUE LA CANTIDAD DE PARAMETROS LIBRES A ESTIMAR SE REDUCE DRASTICAMENTE A UN SUB-ESPACIO DE DIMENSIONALIDAD REDUCIDA, EN LA ULTIMA EVALUACION NIST DE RECONOCIMIENTO DE LOCUTOR (NIST SRE¿08) SE OBTUVIERON LOS MEJORES RESULTADOS USANDO SUBESPACIOS ESTIMADOS A PRIORI TANTO PARA EL LOCUTOR COMO PARA LA VARIABILIDAD ENTRE LAS DISTINTAS GRABACIONES (INTER-SESSION VARIABILITY), LO QUE NOS IMPORTA AQUI ES QUE ESTAS O DISTINTAS FUENTES DE CONOCIMIENTO A PRIORI SE PUEDEN EMPLEAR EN OTRAS APLICACIONES COMO EL RECONOCIMIENTO DE IDIOMA O LA SEGMENTACION DE LOCUTORES, RECONOCIMIENTO Y MEJORA DE VOZ, Y, ESPECIALMENTE, INVESTIGAR Y PROFUNDIZAR EN LA LINEA INICIADA EN NUESTRO PROYECTO ANTERIOR TEC2006-13170-C02-02 SOBRE EL ANALISIS Y RECONOCIMIENTO DE VOZ APLICADO A LA DETECCION DE TRASTORNOS RESPIRATORIOS DEL SUEÑO (APNEA),EN UN NIVEL COMPLEMENTARIO, LOS SISTEMAS VOCALES INTERACTIVOS ESTAN EVOLUCIONANDO RAPIDAMENTE DESDE INTERACCION LOCAL O ESTATICA CON DISPOSITIVOS FIJOS, HACIA INTERACCION MOVIL O DINAMICA CON ENTORNOS AMBIENTALES ABIERTOS, EL CONCEPTO ACTUAL DE INTELIGENCIA AMBIENTAL PREVE LA INTERACCION ENTRE LOS HUMANOS Y LA TECNOLOGIA (HOGAR DIGITAL, COCHE CONECTADO, AMBIENTES INTELIGENTES, ESPACIOS URBANOS INTELIGENTES, ETC,) A TRAVES DE LA INTEGRACION TRANSPARENTE DE DISTINTAS TECNOLOGIAS DE INTERACCION CON POTENTES MODELOS DE REPRESENTACION DEL CONTEXTO Y DEL CONOCIMIENTO, POR TANTO, LOS SISTEMAS INTERACTIVOS VOCALES SE PUEDEN BENEFICIAR DEL CONOCIMIENTO A PRIORI Y DEL CONTEXTO, INCLUYENDO MODELADO ESPECIFICO DEL USUARIO PARA INTERACCION PERSONALIZADA O GESTION DE LA INTERACCION ROBUSTA PARA ENTORNOS INTERACTIVOS MULTIMODALES ABIERTOS, EN ESTOS CASOS, LA INFORMACION VOCAL PUEDE COMBINARSE DE FORMA EFECTIVA CON OTRAS FUENTES O MODALIDADES NO VERBALES (LECTURA DE LABIOS, GESTOS DE LA CARA, RECONOCIMIENTO DE MIRADA, TACTO, ACCIONES DEL USUARIO, ETC,), ASI COMO CON INFORMACION A PRIORI PERSONAL Y ACERCA DEL CONTEXTO AMBIENTAL (COMO MODELOS DE COMPORTAMIENTO ESTIMADOS A PARTIR DE DATOS PREVIOS PARA CADA USUARIO PARTICULAR O POBLACION DE USUARIOS),PARA CONSEGUIR ESTA INTEGRACION TRANSPARENTE Y ROBUSTA DE DIFERENTES FUENTES DE CONOCIMIENTO E INFORMACION CONTEXTUAL, EN LUGAR DE TOMAR DECISIONES (SI/NO), NUESTRA INVESTIGACION SE BASARA EN UN MARCO DE TRABAJO BAYESIANO EN EL QUE BUSCAREMOS PROB BAYESIAN\A PRIORI\SUBESPACIOS\FACTOR ANALYSIS\INTERACCION MULTIMODAL\APNEA\INTELIGENCIA AMBIENTAL\LOCUTO\IDIOMA