Descripción del proyecto
LA TRADUCCION AUTOMATICA (TA) Y LAS MEMORIAS DE TRADUCCION (MT) SON DOS TECNOLOGIAS DE TRADUCCION AMPLIAMENTE UTILIZADAS EN TODO TIPO DE SITUACIONES COMUNICATIVAS EN ESTE MUNDO GLOBALIZADO. LA ADOPCION DE LA TA HA AUMENTADO MUCHO EN LOS ULTIMOS DIEZ AÑOS A RAIZ DE LOS AVANCES EN LA TECNICA CONOCIDA COMO TRADUCCION AUTOMATICA NEURONAL (TAN). ADEMAS DE LA TA, LOS TRADUCTORES PROFESIONALES UTILIZAN MEMORIAS DE TRADUCCION (MT) PARA OBTENER UN BORRADOR QUE MODIFICAR AL TRADUCIR UNA NUEVA FRASE. UNA MT ES UNA BASE DE DATOS DE FRASES EN LENGUA ORIGEN TRADUCIDAS PREVIAMENTE JUNTO CON SUS EQUIVALENTES EN LA LENGUA DE DESTINO QUE PUEDEN REUTILIZARSE CUANDO SE DESEA TRADUCIR UN CONTENIDO SIMILAR. A PESAR DE LOS RECIENTES AVANCES EN TA, LAS MT SIGUEN SIENDO MUY USADAS POR PROVEEDORES DE SERVICIOS LINGUISTICOS, DEPARTAMENTOS DE TRADUCCION Y TRADUCTORES AUTONOMOS. AMBAS TECNOLOGIAS, SIN EMBARGO, REQUIEREN UNA GRAN CANTIDAD DE DATOS BILINGUES PARA ALCANZAR TODO SU POTENCIAL, YA SEA EN FORMA DE DATOS DE ENTRENAMIENTO PARA LOS SISTEMAS DE TAN O DE CONTENIDO DE LA BASE DE DATOS PARA LAS MT. DESAFORTUNADAMENTE, LA MAYORIA DE LOS PARES DE IDIOMAS (SOBRE TODO, SI HAY IMPLICADAS LENGUAS MINORIZADAS O EN PELIGRO DE EXTINCION) PARA LOS QUE PUEDEN SER UTILES ESTAS TECNOLOGIAS PUEDEN CONSIDERARSE COMO PARES CON POCOS RECURSOS EN EL SENTIDO DE QUE LA CANTIDAD DE DATOS DISPONIBLES PARA ELLOS ES INSUFICIENTE PARA QUE LA TAN O LAS MT SEAN UTILES. EL OBJETIVO DE ESTE PROYECTO ES PROPORCIONAR METODOS Y RECURSOS PARA MEJORAR EL RENDIMIENTO DE LAS TECNOLOGIAS DE TAN Y TM EN ESTAS SITUACIONES, Y CONTRIBUIR ASI AL DESARROLLO SOCIOECONOMICO DE LAS COMUNIDADES DE HABLANTES MINORIZADAS, ASI COMO A LA PRESERVACION DE SU PATRIMONIO CULTURAL. PARA ELLO, EL EQUIPO SOLICITANTE OFRECE SU DILATADA EXPERIENCIA EN TRADUCCION AUTOMATICA, TRADUCCION ASISTIDA POR ORDENADOR (TAO), APRENDIZAJE AUTOMATICO Y REDES NEURONALES. LOS PRINCIPALES OBJETIVOS DEL PROYECTO SON: (I) MEJORA DE LA EFICIENCIA, LA SOLIDEZ Y LA APLICABILIDAD DE LOS SISTEMAS DE TAN EN ESCENARIOS QUE IMPLICAN PARES DE IDIOMAS CON POCOS RECURSOS, (II) MEJORA DE LOS METODOS ACTUALES DE RASTREO (CRAWLING) DE LA WEB PARA MAXIMIZAR LA UTILIDAD PARA LA TAN DE LOS DATOS DESCARGADOS, Y (III) AMPLIACION DE LA APLICABILIDAD DE LAS MT EN HERRAMIENTAS DE TAO PROFESIONALES PARA PODER EXPLOTAR CORPUS MONOLINGUES CUANDO LA TA NO ES UNA OPCION VIABLE O LA BASE DE DATOS DE TRADUCCIONES EXISTENTES NO ES LO SUFICIENTEMENTE GRANDE. INVESTIGAREMOS COMO HACER QUE LA TAN SEA MUCHO MAS ROBUSTA Y EFICIENTE AL EXTRAER EL CONOCIMIENTO DE GRANDES MODELOS NEURONALES PREENTRENADOS, DESARROLLADOS INICIALMENTE PARA PARES DE LENGUAS CON RECURSOS SUFICIENTES, Y DESARROLLAREMOS TECNICAS EFICIENTES DE AUMENTO DE DATOS (DATA AUGMENTATION) PARA APROVECHAR AL MAXIMO LOS ESCASOS RECURSOS DISPONIBLES. TAMBIEN INVESTIGAREMOS EN EL USO DEL APRENDIZAJE POR REFUERZO PARA MEJORAR LOS METODOS ACTUALES DE RASTREO DE CORPUS, Y EN LA INTEGRACION DE EMBEDDINGS MULTILINGUES DE ORACIONES EN LAS HERRAMIENTAS DE TAO DE MODO QUE LOS DATOS MONOLINGUES, MAS FACILES DE OBTENER QUE LOS PARALELOS, PUEDAN EXPLOTARSE ADECUADAMENTE. POR ULTIMO, IREMOS ANALIZANDO EL FUNCIONAMIENTO INTERNO DE LOS SISTEMAS NEURONALES QUE DESARROLLEMOS MEDIANTE TECNICAS MODERNAS DE INTERPRETABILIDAD PARA DETERMINAR ASI COMO MEJORARLOS. COMO ESCENARIOS DE EVALUACION NOS CENTRAREMOS EN LENGUAS CON POCOS RECURSOS COMO EL ASTURLEONES, EL ARANES, EL K'ICHE', EL MAYA YUCATECO, EL PASTUN O EL BIRMANO. RADUCCION AUTOMATICA\INTELIGENCIA ARTIFICIAL\APRENDIZAJE PROFUNDO\REDES NEURONALES\OBTENCION DE CORPORA DE LA WEB\IDIOMAS CON POCOS RECURSOS\MEMORIAS DE TRADUCCION