Hola,
¿eres nuevo aquí?

Regístrate gratis y conecta tu empresa con financiación pública, partners y proyectos.

Tengo cuenta

Regístrate

Ver video

PID2021-123988OB-C33

Financiado

Cerrado

MULTILINGUAL TRANSFER LEARNING FOR THE INCLUSION OF VULNERABLE SOCIAL GROUPS

HASTA HACE POCO, EL DESARROLLO DE SISTEMAS DE TA SE LIMITABA NECESARIAMENTE A PARES DE IDIOMAS PARA LOS QUE EXISTIAN GRANDES CORPUS PARALELOS QUE PODIAN UTILIZARSE PARA ENTRENAR MODELOS DE TRADUCCION. EN 2018, DOS ENFOQUES CONCURR... ver más

01/01/2021

BARCELONA SUPERCOM...

61K€

Presupuesto del proyecto: 61K€

Líder del proyecto

BARCELONA SUPERCOMPUTING CENTERCENTRO NACIONA... No se ha especificado una descripción o un objeto social para esta compañía.

TRL 4-5 | 118M€

Fecha límite participación Sin fecha límite de participación.

Financiación concedida El organismo AGENCIA ESTATAL DE INVESTIGACIÓN notifico la concesión del proyecto el día 2021-01-01 No tenemos la información de la convocatoria

0% 100%

Información adicional privada

No hay información privada compartida para este proyecto. Habla con el coordinador.

Participantes

BARCELONA SUPERCOMPUTING CEN...

Lider

Conecta tu I+D

¿Tienes un proyecto y buscas un partner? Gracias a nuestro motor inteligente podemos recomendarte los mejores socios y ponerte en contacto con ellos. Te lo explicamos en este video

Proyectos interesantes

PID2021-128811OA-I00 ESTRATEGIAS DE NATURALEZA LINGUISTICA PARA LA TRADUCCION AUT... 85K€ Cerrado

EXPERT EXPloiting Empirical appRoaches to Translation 4M€ Cerrado

PRESEMT Pattern REcognition based Statistically Enhanced MT 3M€ Cerrado

ABU-MATRAN Automatic building of Machine Translation 1M€ Cerrado

PID2021-123988OB-C31 EXTREMELY LOW-RESOURCED MACHINE TRANSLATION 224K€ Cerrado

Data4ML A prototype system for obtaining and managing training data... 150K€ Cerrado

Líder del proyecto

BARCELONA SUPERCOMPUTING CENTERCENTRO NACIONA... No se ha especificado una descripción o un objeto social para esta compañía.

TRL 4-5 | 118M€

Presupuesto del proyecto 61K€

Fecha límite de participación Sin fecha límite de participación.

Descripción del proyecto HASTA HACE POCO, EL DESARROLLO DE SISTEMAS DE TA SE LIMITABA NECESARIAMENTE A PARES DE IDIOMAS PARA LOS QUE EXISTIAN GRANDES CORPUS PARALELOS QUE PODIAN UTILIZARSE PARA ENTRENAR MODELOS DE TRADUCCION. EN 2018, DOS ENFOQUES CONCURRENTES [ARTETXE, 2018] Y [LAMPLE, 2018] DEMOSTRARON QUE LA TA NO SUPERVISADA (UTILIZANDO SOLO CORPUS MONOLINGUES) ERA POSIBLE. EL PROYECTO CEF MT4ALL PARTICIPADO POR LA UPV-EHU Y EL BSC, SE BASA EN LA METODOLOGIA PROPUESTA POR [ARTEXTE, 2018] PARA CREAR MOTORES DE TA PARA VARIOS ESCENARIOS CON POCOS RECURSOS. TRABAJOS MAS RECIENTES COMO [VERGES ET AL. 2020] HAN DEMOSTRADO QUE EL USO DE MODELOS MULTILINGUES ES BENEFICIOSO, YA QUE GENERALIZA MEJOR AL COMPARTIR PARAMETROS ENTRE TODAS LAS LENGUAS IMPLICADAS, ESPECIALMENTE SI LAS LENGUAS PERTENECEN A LA MISMA FAMILIA LINGUISTICA. AL MISMO TIEMPO, ENTRENAR MODELOS MULTILINGUES DE TA DESDE CERO SUELE REQUERIR GRANDES CORPUS PARALELOS Y PUEDE NO SER FACTIBLE EN ESCENARIOS DE TRADUCCION CON POCOS RECURSOS. LOS MODELOS MULTILINGUES, COMO XLM Y XLM-ROBERTA [CONNEAU, 2020], QUE COMBINAN OBJETIVOS DE ENTRENAMIENTO NO SUPERVISADOS (DATOS MONOLINGUES) Y SUPERVISADOS (DATOS PARALELOS), FUNCIONAN ESPECIALMENTE BIEN. EN [KHARITONOVA, DE GIBERT, ARMENGOL, RODRIGUEZ Y MELERO, 2021], REUTILIZAMOS ESTA IDEA INICIALIZANDO EL CODIFICADOR CON UN XLM-ROBERTA PREENTRENADO, PERO A DIFERENCIA DE LOS ENFOQUES ANTERIORES, SOLO INICIALIZAMOS EL CODIFICADOR, PARA INSTANCIAR UN DECODIFICADOR MENOS PROFUNDO, POR RAZONES DE EFICIENCIA. UN ENFOQUE ALTERNATIVO, AUN INEXPLORADO, ES, EN LUGAR DE ADAPTAR UN MODELO MULTILINGUE, RECICLAR LOS PESOS DE UN MODELO MONOLINGUE (INGLES) COMO BART (UN AUTOCODIFICADOR CON ELIMINACION DE RUIDO) Y SUSTITUIR LA CAPA DE EMBEDDINGS POR UNA CAPA ENTRENADA EN LOS DATOS DE LA LENGUA CON POCOS RECURSOS. ESTE NOVEDOSO ENFOQUE TIENE LA VENTAJA DE LA MODULARIDAD (PERMITE AÑADIR NUEVAS LENGUAS SIN REENTRENAR DESDE CERO) Y LA SIMPLICIDAD. ADEMAS, COMO VENTAJA EXTRA, EL METODO ES CAPAZ DE PRODUCIR UN MODELO LINGUISTICO COMPLETO PARA LA LENGUA DE DESTINO, QUE PUEDE UTILIZARSE POTENCIALMENTE DE FORMA COMPETITIVA EN OTRAS TAREAS MONOLINGUES. EN ESTE PROYECTO QUEREMOS EXPLORAR ESTOS Y OTROS METODOS DE APRENDIZAJE POR TRANSFERENCIA, ENRIQUECIDOS CON TECNICAS SEMI-SUPERVISADAS SIEMPRE QUE HAYA DATOS PARALELOS DISPONIBLES, CON EL OBJETIVO ESPECIFICO DE MEJORAR LA CALIDAD DE LOS SISTEMAS DE TRADUCCION PARA LENGUAS CON POCOS RECURSOS. EN CONCRETO, NOS PROPONEMOS APLICAR ESTOS METODOS AL DESARROLLO DE TA DE BUENA CALIDAD ENTRE EL ESPAÑOL Y CIERTAS LENGUAS PERTENECIENTES A COLECTIVOS VULNERABLES PRESENTES EN ESPAÑA. ENTRE ESTOS GRUPOS TENEMOS PREVISTO INCLUIR, POR UN LADO, A LA COMUNIDAD GITANA, CUYA LENGUA PATRIMONIAL (EL ROMANI) ESTA GRAVEMENTE AMENAZADA, Y, POR OTRO, A LOS COLECTIVOS MIGRANTES HABLANTES DE LENGUAS CON ESCASOS RECURSOS, COMO EL AMAZHIG, EL PASTUN Y EL WOLOF. CON UN TRADUCTOR PARA EL ROMANI (ACTUALMENTE EN VIAS DE REVITALIZACION), EL PROYECTO CONTRIBUIRA A LA CREACION DE CONTENIDOS DIGITALES EN ROMANI Y AL EMPODERAMIENTO DIGITAL DE LA COMUNIDAD GITANA. EN EL CASO DE LOS COLECTIVOS INMIGRANTES Y REFUGIADOS, ESTOS A MENUDO SE ENFRENTAN A GRAVES BARRERAS LINGUISTICAS A LA HORA DE COMUNICARSE CON LAS ENTIDADES LOCALES O DE REALIZAR TRAMITES CON LAS DIFERENTES ADMINISTRACIONES, PRODUCIENDOSE UN EFECTO DE AISLAMIENTO E INCOMUNICACION. GRACIAS A LA CREACION DE ESTAS HERRAMIENTAS, EL PROYECTO CONTRIBUIRA EFICAZMENTE A LA INCLUSION E INTEGRACION DE ESTOS COLECTIVOS VULNERABLES. RADUCCION AUTOMATICA\LENGUAS CON POCOS RECURSOS\APRENDIZAJE NO SUPERVISADO

Conecta tu I+D

Entra hoy

¿Olvidé mi contraseña?

Financiación

Empresas

CTIs/Universidades

Proyectos

Investigadores