Descripción del proyecto
LA GESTION DE LA INFORMACION ESPECIALIZADA EN UN CAMPO DEL SABER (BIOMEDICINA O RELACIONADA CON LA HISTORIA QUE APARECE EN PERIODICOS SIGLOS XVIII Y XIX), EN TEXTO LIBRE Y DISPONIBLE DIGITALMENTE EN ABIERTO SUPONE UN DOBLE RETO POTENCIALES USUARIOS, POR UNA PARTE, TIENEN QUE ENCONTRAR ESA INFORMACION, PARA LO CUAL HA TENIDO QUE SER PROCESADA E INDEXADA CON PRECISION DE ACUERDO CON SUS CONTENIDOS Y POR OTRA, TIENEN QUE ENTENDERLA AUNQUE NO SEAN EXPERTOS, ES DECIR LA INFORMACION HA DE SER LEGIBLE Y SENCILLA. EN EL CAMPO DE LA BIOMEDICINA TENEMOS BUENOS EJEMPLOS EN LOS QUE SERIA NECESARIO SUSTITUIR UNA FRASE DIFICIL DE COMPRENDER (P. EJ., PARA LA CEFALEA TOMAR UN ANALGESICO) CON UNA PARAFRASIS MAS SENCILLA (P. EJ., PARA EL DOLOR DE CABEZA TOMAR UNA ASPIRINA) DE ACUERDO CON EL CONOCIMIENTO DEL USUARIO DE LA CONSULTA. LA SIMPLIFICACION DE TEXTOS EN BIOMEDICINA ES UN RETO ACTUAL, PERO EN EL CAMPO DE LAS HUMANIDADES, TODAVIA EL RETO ES MAYOR YA QUE LA RECUPERACION DE LA INFORMACION CON RECURSOS LINGUISTICOS O BASADOS EN REDES DE NEURONAS ESTA MUY POCO AVANZADA, NO EXISTIENDO POR EJEMPLO BUENOS RECONOCEDORES DE ENTIDADES NOMBRADAS (COMO SI LOS HAY PARA BIOMEDICINA COMO LOS BASADOS EN UMLS MUY UTILIZADOS Y QUE INCLUSO SON EFICIENTES). ESTAS HERRAMIENTAS BASICAS PARA LA SIMPLIFICACION DE TEXTOS ESTAN LIGADAS A LA EXISTENCIA GRANDES CORPUS QUE, DE NUEVO EN HUMANIDADES, SON ESCASOS O INEXISTENTES. EN EL PROYECTO COORDINADO SE PLANTEA TRABAJAR TANTO CON CORPUS COMO RECURSOS LINGUISTICOS O DE CONOCIMIENTO TANTO EN INGLES COMO EN ESPAÑOL. POR TODO ELLO, EL SUBPROYECTO CLARA-DH, TIENE POR OBJETIVO: 1) DESARROLLAR RECURSOS LINGUISTICOS PARA LA SIMPLIFICACION AUTOMATICA DE TEXTOS EN CORPUS DE BIOMEDICINA E HISTORIA; 2) DESARROLLAR UN CORPUS DE NOTICIAS A PARTIR DE PERIODICOS DE MADRID DE LOS SIGLOS XVIII Y XIX; 3) DISEÑAR, ADQUIRIR Y FACILITAR EL USO DE UNA INFRAESTRUCTURA SUFICIENTE A TODOS LOS MIEMBROS DEL PROYECTO COORDINADO PARA QUE SE EJECUTEN LOS PROCESOS QUE PERMITAN CONFIRMAR LAS TESIS DE INVESTIGACION; 4) DESARROLLAR NUEVOS MODELOS DE PROCESAMIENTO BASADOS EN RECURSOS EXTERNOS Y ALGORITMOS DE DEEP LEARNING, QUE SEAN REPRODUCIBLES Y 5) APORTAR AL PROYECTO COORDINADO LA METODOLOGIA NECESARIA PARA PRODUCIR RECURSOS VIRTUALES EDUCATIVOS CON LOS SERVICIOS Y LA EXPERIENCIA ADQUIRIDA EN LA UNED. SE DESARROLLARAN ALGORITMOS PARA EL DOMINIO BIOMEDICO E HISTORICO Y CORPUS ESPECIFICOS QUE SE FACILITARAN EN ABIERTO DE FORMA ANALOGA A LAS ULTIMAS EXPERIENCIAS DEL SUBPROYECTO (HTTP://HESML.LSI.UNED.ES/) Y SE PARTICIPARA EN LA CREACION DE UN TALLER DE EVALUACION DE UNA TAREA DE SIMPLIFICACION PARA EL ESPAÑOL EN EL MARCO DEL FORO CLEF (HTTP://CLEF2021.CLEF-INITIATIVE.EU/) O IBERLEF (HTTPS://SITES.GOOGLE.COM/VIEW/IBERLEF2020/WORKSHOP).LOS RESULTADOS SERAN DE INTERES PARA LOS HISTORIADORES, ENTRE ELLOS LOS DEL GRUPO DE LA UNED QUE SOLICITAN EL PROYECTO (CARCEM) 3325113380-113380-4-20 (ALVARO MOLINA MARTIN Y ALICIA CAMARA MUÑOZ) EN ESTA CONVOCATORIA, Y EN GENERAL, PARA LA COMUNIDAD INVESTIGADORA EN PROCESAMIENTO DEL LENGUAJE NATURAL QUE TRABAJA EN ESPAÑOL. ROCESAMIENTO DEL LENGUAJE NATURAL\RECURSOS EDUCATIVOS MULTIMEDIA EN ABIERT\RECUPERACION DE INFORMACION\EWN...)\RECURSOS EXTERNOS DE INFORMACION (WIKIDA\WORD EMBEDDINGS\MODELOS DEL LENGUAJE