Descripción del proyecto
UNO DE LOS PRINCIPALES RETOS DE LA SOCIEDAD DIGITAL ACTUAL ES ASISTIR A LOS USUARIOS PARA QUE ACCEDAN FACILMENTE Y SAQUEN EL MAXIMO BENEFICIO DE LA ENORME CANTIDAD DE INFORMACION MULTIMEDIA DISPONIBLE EN LINEA, ASI COMO FACILITAR LA INTERACCION EN ESTE MARCO TECNOLOGICO. LA PRINCIPAL MOTIVACION DE ESTE PROYECTO ES IMPULSAR LOS SISTEMAS DE INTELIGENCIA ARTIFICIAL PARA QUE SEAN CAPACES DE PROCESAR INFORMACION DE MUCHAS FUENTES DIFERENTES. ES BIEN CONOCIDO QUE LAS TECNOLOGIAS DEL HABLA Y EL PROCESAMIENTO DEL LENGUAJE NATURAL HAN AVANZADO VERTIGINOSAMENTE EN LOS ULTIMOS AÑOS. SIN EMBARGO, UNA VEZ ALCANZADOS ALGUNOS HITOS IMPORTANTES, HAY NUEVOS DESAFIOS QUE PUEDEN SER ABORDADOS PARA HACER FRENTE DE UNA MEJOR MANERA A TODA ESTA CANTIDAD DE INFORMACION DISPONIBLE. EL SUBPROYECTO BEWORD-UZ ABORDARA PROBLEMAS RELACIONADOS CON EL APRENDIZAJE NO SUPERVISADO EN TECNOLOGIAS DEL HABLA Y DEL PROCESADO DEL LENGUAJE NATURAL (PLN) CON ESPECIAL ENFASIS EN QUE LOS AVANCES SEAN ACCESIBLES PARA TODOS, SIN IMPORTAR CIRCUNSTANCIAS FISICAS O MENTALES ESPECIFICAS. PARTIMOS DE QUE EXISTE UNA GRAN CANTIDAD DE DATOS MULTIMEDIA PUBLICOS Y DE FACIL ACCESO. SIN EMBARGO, NO PUEDEN SER USADOS POR ESTAS TECNOLOGIAS YA QUE, A MENUDO, TIENEN QUE SER ANOTADOS POR HUMANOS, SIENDO ESTE UN PROCESO EXTREMADAMENTE COSTOSO. EN ESTE PROYECTO PROPONEMOS TECNICAS NOVEDOSAS QUE PALIEN LA NECESIDAD DE ETIQUETAS. MEDIANTE APRENDIZAJE NO SUPERVISADO NUESTROS MODELOS INTENTARAN COMPRENDER LA FUENTE DE DATOS, APRENDIENDO A HACER PREDICCIONES RELACIONADAS CON ELLA. LOS AVANCES SE APLICARAN EN VARIOS CAMPOS EN LOS QUE EL GRUPO TIENE SOLIDA EXPERIENCIA COMO EL RECONOCIMIENTO AUTOMATICO DEL HABLA (RAH), LA DIARIZACION, LA IDENTIFICACION DEL HABLANTE, EL RESUMEN DE DOCUMENTOS O LA SIMPLIFICACION DEL LENGUAJE.ESPECIFICAMENTE, EN RAH PROPONEMOS REDUCIR EL COSTE DE DESARROLLO MEDIANTE TECNICAS NO SUPERVISADAS Y ENFRENTAR EL PROBLEMA DE LA CONSTRUCCION DE VOCABULARIO CON PRONUNCIACIONES DEFINIDAS POR EXPERTOS DESARROLLANDO DISEÑOS END-TO-END EN LOS QUE LA ALINEACION A PALABRAS SE REALIZA DE FORMA CONJUNTA CON LA ESTIMACION DE LA RED. EN SEGMENTACION DE AUDIO, DIARIZACION Y ATRIBUCION DE LOCUTORES, PROPONDREMOS TECNICAS DE DEEP LEARNING NO SUPERVISADAS PARA OBTENER REPRESENTACIONES DE LOCUTOR Y AUDIO DE FONDO ROBUSTAS A LA VARIABILIDAD, A LA LIMITACION DE DATOS Y A ESCENARIOS DESCONOCIDOS. ADEMAS, PROPONEMOS TECNICAS NOVEDOSAS DE RESUMEN ABSTRACTIVO Y GENERACION TEX-TO-TEXT PARA SIMPLIFICACION DEL LENGUAJE DESTINADO A HERRAMIENTAS DE COMUNICACION AUMENTATIVA Y ALTERNATIVA COMO TRADUCTORES DE TEXTO A PICTOGRAMAS.NO DEBEMOS OLVIDAR NUNCA QUE ESTAS TECNOLOGIAS DEBEN SER ACCESIBLES Y UTILES PARA TODOS SIN TENER EN CUENTA DISCAPACIDADES FISICAS, MENTALES O CIRCUNSTANCIAS QUE DEGRADEN SU DESEMPEÑO. ABORDAREMOS LA DETECCION DEL HABLA NO ESTANDAR DEBIDA A CAMBIOS EN EL ESFUERZO VOCAL O FATIGA, TRASTORNOS DE LA VOZ, Y LA FORMA DE TRANSFERIR ESTE CONOCIMIENTO SOBRE LOS MODELOS ENTRENADOS CON HABLA ESTANDAR.LOS GRUPOS DE INVESTIGACION QUE PARTICIPAN EN ESTE CONSORCIO ESTAN ESPECIALIZADOS EN AREAS COMPLEMENTARIAS QUE PERMITIRAN, CON SU COOPERACION, ALCANZAR LOS OBJETIVOS DE ESTE PROYECTO. DICHOS GRUPOS HAN DEMOSTRADO UNA TRAYECTORIA EXITOSA EN EL PROCESAMIENTO DEL HABLA, DEL LENGUAJE NATURAL Y DE CONTENIDO MULTIMEDIA, TANTO INDIVIDUALMENTE COMO TRABAJANDO EN COORDINACION. ESTA COOPERACION SE HA TRADUCIDO EN LA PARTICIPACION EN DESAFIOS CONJUNTOS DURANTE LOS ULTIMOS DIEZ AÑOS CON EXCELENTES RESULTADOS. UDIO\COMUNICACION NATURAL\PROCESADO DEL LENGUAJE NATURAL\INTENCION\SIGNIFICADO\ANALYTICS\MULTIMEDIA\LENGUAJE\VOZ