Descripción del proyecto
DEEPR3.CAT INVESTIGARA NUEVOS METODOS PARA EXTENDER, REUTILIZAR Y ADAPTAR DE FORMA COMPUTACIONALMENTE EFICIENTE LOS MODELOS DE LENGUAJE PREENTRENADOS EXISTENTES CON EL FIN DE EXPLOTARLOS EN NUEVOS DOMINIOS, GENEROS Y LENGUAS, ASI COMO APLICARLOS A DIFERENTES CASOS DE USO, COMO EL DOMINIO BIOMEDICO, LA TRADUCCION AUTOMATICA O LA GENERACION DE TEXTOS. EXPLORAREMOS LAS TECNICAS DE ADAPTACION DE MODELOS, HACIENDO HINCAPIE EN LA EFICIENCIA COMPUTACIONAL, POR EJEMPLO, MANTENIENDO EL TAMAÑO DE LOS MODELOS LO MAS COMPACTO POSIBLE, CON VISTAS A CONTRIBUIR A LA MITIGACION DE LA HUELLA DE CARBONO, ASI COMO A PODER UTILIZAR EL MODELO EN ENTORNOS COMPUTACIONALMENTE LIGEROS. PARA ELLO, SE EXPLORARAN ESTRATEGIAS INNOVADORAS EN EL APRENDIZAJE POR TRANSFERENCIA QUE VAYAN MAS ALLA DE LAS TECNICAS ESTANDAR DE ADAPTACION DE MODELOS. POR EJEMPLO, LA ADAPTACION PARCIAL DEL MODELO, EN EL QUE SOLO SE MODIFICA UN SUBCONJUNTO DE PARAMETROS, ES MAS EFICIENTE QUE LA ADAPTACION COMPLETA DEL MODELO. ESTO PUEDE ABORDARSE DE DIFERENTES MANERAS: POR EJEMPLO LOS ADAPTADORES SON UNA ESTRATEGIA CADA VEZ MAS COMUN QUE CONSISTE EN INTRODUCIR NUEVAS CAPAS, INTERCALADAS CON LAS ORIGINALES. AUN MAS NOVEDOSO Y RENTABLE ES EL P-TUNING, QUE CONSISTE EN INTRODUCIR TOKENS "ARTIFICIALES" CON SUS CORRESPONDIENTES EMBEDDINGS Y UTILIZARLOS COMO PREFIJOS EN LA NUEVA TAREA. OTRAS TECNICAS DE ADAPTACION QUE SE EXPLORARAN SON EL APRENDIZAJE CON CERO Y POCOS EJEMPLOS, EL PROMPTING Y EL "RECICLAJE DE MODELOS", QUE CONSISTE EN REINICIALIZAR UNICAMENTE LAS CAPAS LEXICAS CON UN NUEVO VOCABULARIO Y CONGELAR EL RESTO DE LOS PESOS. ESTE ENFOQUE TIENE LA VENTAJA DE PODER UTILIZAR UN VOCABULARIO TOTALMENTE NUEVO REUTILIZANDO LOS PARAMETROS DE UN MODELO EXISTENTE. LOS MODELOS RECICLADOS QUE SE OBTENGAN SERAN LA BASE DE UNA NUEVA GENERACION DE MODELOS LINGUISTICOS EFICIENTES Y COMPUTACIONALMENTE EFICIENTES PARA EL ESPAÑOL, EL CATALAN, EL EUSKERA Y EL GALLEGO (ADEMAS DEL INGLES). LA INVESTIGACION TENDRA TAMBIEN LA ORIENTACION PRACTICA DE CUBRIR LAS LAGUNAS ACTUALES EN LOS MODELOS ADAPTADOS A LOS DOMINIOS DE ESTAS LENGUAS, COMO EL SANITARIO Y EL JURIDICO, Y A DIVERSOS GENEROS COMO EL DE LAS REDES SOCIALES. LOS MODELOS RESULTANTES SERAN EVALUADOS EN BENCHMARKINGS EXISTENTES Y DE NUEVO DESARROLLO. FINALMENTE, LOS AVANCES CIENTIFICOS DEL PROYECTO SE DEMOSTRARAN EN DIFERENTES ESCENARIOS DE APLICACION, INCLUYENDO TAREAS DE ANALISIS DE TEXTOS BIOMEDICOS Y DE TRADUCCION AUTOMATICA ENTRE LAS DIFERENTES LENGUAS PENINSULARES EN EL AMBITO LEGISLATIVO, ENTRE OTROS, CON UNA APLICACION PRACTICA EN UN MOTOR DE MT ADAPTADO PARA TRADUCIR EL BOE DESDE EL ESPAÑOL Y LA LEGISLACION EUROPEA DESDE EL INGLES, A LAS TRES LENGUAS COOFICIALES.