Descripción del proyecto
HASTA HACE POCO, EL DESARROLLO DE SISTEMAS DE TA SE LIMITABA NECESARIAMENTE A PARES DE IDIOMAS PARA LOS QUE EXISTIAN GRANDES CORPUS PARALELOS QUE PODIAN UTILIZARSE PARA ENTRENAR MODELOS DE TRADUCCION. EN 2018, DOS ENFOQUES CONCURRENTES [ARTETXE, 2018] Y [LAMPLE, 2018] DEMOSTRARON QUE LA TA NO SUPERVISADA (UTILIZANDO SOLO CORPUS MONOLINGUES) ERA POSIBLE. EL PROYECTO CEF MT4ALL PARTICIPADO POR LA UPV-EHU Y EL BSC, SE BASA EN LA METODOLOGIA PROPUESTA POR [ARTEXTE, 2018] PARA CREAR MOTORES DE TA PARA VARIOS ESCENARIOS CON POCOS RECURSOS. TRABAJOS MAS RECIENTES COMO [VERGES ET AL. 2020] HAN DEMOSTRADO QUE EL USO DE MODELOS MULTILINGUES ES BENEFICIOSO, YA QUE GENERALIZA MEJOR AL COMPARTIR PARAMETROS ENTRE TODAS LAS LENGUAS IMPLICADAS, ESPECIALMENTE SI LAS LENGUAS PERTENECEN A LA MISMA FAMILIA LINGUISTICA. AL MISMO TIEMPO, ENTRENAR MODELOS MULTILINGUES DE TA DESDE CERO SUELE REQUERIR GRANDES CORPUS PARALELOS Y PUEDE NO SER FACTIBLE EN ESCENARIOS DE TRADUCCION CON POCOS RECURSOS. LOS MODELOS MULTILINGUES, COMO XLM Y XLM-ROBERTA [CONNEAU, 2020], QUE COMBINAN OBJETIVOS DE ENTRENAMIENTO NO SUPERVISADOS (DATOS MONOLINGUES) Y SUPERVISADOS (DATOS PARALELOS), FUNCIONAN ESPECIALMENTE BIEN. EN [KHARITONOVA, DE GIBERT, ARMENGOL, RODRIGUEZ Y MELERO, 2021], REUTILIZAMOS ESTA IDEA INICIALIZANDO EL CODIFICADOR CON UN XLM-ROBERTA PREENTRENADO, PERO A DIFERENCIA DE LOS ENFOQUES ANTERIORES, SOLO INICIALIZAMOS EL CODIFICADOR, PARA INSTANCIAR UN DECODIFICADOR MENOS PROFUNDO, POR RAZONES DE EFICIENCIA. UN ENFOQUE ALTERNATIVO, AUN INEXPLORADO, ES, EN LUGAR DE ADAPTAR UN MODELO MULTILINGUE, RECICLAR LOS PESOS DE UN MODELO MONOLINGUE (INGLES) COMO BART (UN AUTOCODIFICADOR CON ELIMINACION DE RUIDO) Y SUSTITUIR LA CAPA DE EMBEDDINGS POR UNA CAPA ENTRENADA EN LOS DATOS DE LA LENGUA CON POCOS RECURSOS. ESTE NOVEDOSO ENFOQUE TIENE LA VENTAJA DE LA MODULARIDAD (PERMITE AÑADIR NUEVAS LENGUAS SIN REENTRENAR DESDE CERO) Y LA SIMPLICIDAD. ADEMAS, COMO VENTAJA EXTRA, EL METODO ES CAPAZ DE PRODUCIR UN MODELO LINGUISTICO COMPLETO PARA LA LENGUA DE DESTINO, QUE PUEDE UTILIZARSE POTENCIALMENTE DE FORMA COMPETITIVA EN OTRAS TAREAS MONOLINGUES. EN ESTE PROYECTO QUEREMOS EXPLORAR ESTOS Y OTROS METODOS DE APRENDIZAJE POR TRANSFERENCIA, ENRIQUECIDOS CON TECNICAS SEMI-SUPERVISADAS SIEMPRE QUE HAYA DATOS PARALELOS DISPONIBLES, CON EL OBJETIVO ESPECIFICO DE MEJORAR LA CALIDAD DE LOS SISTEMAS DE TRADUCCION PARA LENGUAS CON POCOS RECURSOS. EN CONCRETO, NOS PROPONEMOS APLICAR ESTOS METODOS AL DESARROLLO DE TA DE BUENA CALIDAD ENTRE EL ESPAÑOL Y CIERTAS LENGUAS PERTENECIENTES A COLECTIVOS VULNERABLES PRESENTES EN ESPAÑA. ENTRE ESTOS GRUPOS TENEMOS PREVISTO INCLUIR, POR UN LADO, A LA COMUNIDAD GITANA, CUYA LENGUA PATRIMONIAL (EL ROMANI) ESTA GRAVEMENTE AMENAZADA, Y, POR OTRO, A LOS COLECTIVOS MIGRANTES HABLANTES DE LENGUAS CON ESCASOS RECURSOS, COMO EL AMAZHIG, EL PASTUN Y EL WOLOF. CON UN TRADUCTOR PARA EL ROMANI (ACTUALMENTE EN VIAS DE REVITALIZACION), EL PROYECTO CONTRIBUIRA A LA CREACION DE CONTENIDOS DIGITALES EN ROMANI Y AL EMPODERAMIENTO DIGITAL DE LA COMUNIDAD GITANA. EN EL CASO DE LOS COLECTIVOS INMIGRANTES Y REFUGIADOS, ESTOS A MENUDO SE ENFRENTAN A GRAVES BARRERAS LINGUISTICAS A LA HORA DE COMUNICARSE CON LAS ENTIDADES LOCALES O DE REALIZAR TRAMITES CON LAS DIFERENTES ADMINISTRACIONES, PRODUCIENDOSE UN EFECTO DE AISLAMIENTO E INCOMUNICACION. GRACIAS A LA CREACION DE ESTAS HERRAMIENTAS, EL PROYECTO CONTRIBUIRA EFICAZMENTE A LA INCLUSION E INTEGRACION DE ESTOS COLECTIVOS VULNERABLES. RADUCCION AUTOMATICA\LENGUAS CON POCOS RECURSOS\APRENDIZAJE NO SUPERVISADO