Descripción del proyecto
EL PRESENTE PROYECTO TIENE COMO OBJETIVO EL DESARROLLO Y ACTUALIZACION DEL CORPUS ASI COMO DE LAS HERRAMIENTAS INFORMATICAS RESULTANTES DEL PROYECTO TITULADO DESARROLLO DEL CORPUS ELECTRONICO DE MANUSCRITOS MEDIEVALES INGLESES DE INDOLE CIENTIFICA BASADO EN LA COLECCION HUNTERIANA DE LA UNIVERSIDAD DE GLASGOW (FFI2008-02336 DIRIGIDO POR EL DR. ANTONIO MIRANDA GARCIA), CUYO INFORME FINAL SERA SOMETIDO A EVALUACION EL PROXIMO MES DE ENERO DE 2012. EN VIRTUD DE LO ANTERIOR, EL PRINCIPAL OBJETIVO DE NUESTRA PROPUESTA ES DOBLE: A) AUMENTAR NUESTRO CORPUS DE PROSA CIENTIFICA MEDIEVAL EN LENGUA VERNACULA CON LA INCLUSION DE UNA SERIE DE TRATADOS, HASTA AHORA INEDITOS, PERTENECIENTES A LOS SIGLOS XIV Y XV; Y B) PREPARAR EDICIONES ELECTRONICAS EN LAS QUE LAS IMAGENES DIGITALIZADAS ACOMPAÑEN A SU CORRESPONDIENTE TRANSCRIPCION DIPLOMATICA (CONTANDO CON EL PERMISO DE LA INSTITUCION PROPIETARIA O DEPOSITARIA DEL MANUSCRITO). CON LA CONSECUCION DE ESTOS OBJETIVOS, SE ESPERA ALCANZAR UN CORPUS ANOTADO CON UN TAMAÑO SUPERIOR A LOS DOS MILLONES DE PALABRAS, TODAS ELLAS DOTADAS DEL LEMA, CLASE DE PALABRA, ACCIDENTE Y SIGNIFICADO, FAVORECIENDO ASI LA EXTRACCION DE INFORMACION MORFO-SINTACTICA TANTO A NIVEL DE PALABRA COMO A NIVEL DE LEMA, CONTEXTO INCLUIDO.LOS OBJETIVOS ANTERIORES DEPENDEN DE LA CONSECUCION DE UNA SERIE DE MICRO-TAREAS, TODAS ELLAS NECESARIAMENTE SECUENCIALES: (1) LA DIGITALIZACION DEL TEXTO DEL MANUSCRITO, EN LA MEDIDA DE LO POSIBLE, A CARGO DE LA BIBLIOTECA DEPOSITARIA DEL VOLUMEN (LAS BIBLIOTECAS WELLCOME Y GLASGOW HASTA AHORA SE HAN MOSTRADO CON MAYOR PREDISPOSICION A TENOR DE SUS PRECIOS Y CESION DEL COPYRIGHT); (2) LA PREPARACION Y LIMPIADO DE LAS IMAGENES; (3) LA TRANSCRIPCION DEL TEXTO (ESTRICTAMENTE DIPLOMATICA); (4) LA SUBIDA DE LA TRANSCRIPCION E IMAGENES A LA PLATAFORMA WEB DEL PROYECTO (VEASE HTTP://HUNTER.FILOSOFIA.UMA.ES/MANUSCRIPTS A MODO DE EJEMPLO). LA SEGUNDA ETAPA DEL PROYECTO PASA POR LA ANOTACION, LEMATIZADO Y ETIQUETADO MORFOLOGICO DE LAS PALABRAS QUE COMPONEN EL CORPUS DOTANDOLAS DEL LEMA (SEGUN LA VERSION ELECTRONICA DEL MIDDLE ENGLISH DICTIONARY), CLASE DE PALABRA, ACCIDENTE Y SIGNIFICADO (PARA FAVORECER LA LOCALIZACION DE CADA ITEM EN EL CORPUS) DE MANERA QUE SE PUEDA EXTRAER LA INFORMACION DESEADA CON EL USO DE LA HERRAMIENTA TEXT SEARCH ENGINE (MIRANDA GARCIA & GARRIDO GARRIDO 2011), MEDIANTE BUSQUEDAS TANTO BOOLEANAS COMO NO BOOLEANAS. POR SU PARTE, SE ESTIMA QUE EL PROCESO DE ANOTACION DEL CORPUS LOGRARA REDUCIRSE NOTABLEMENTE CON LA UTILIZACION DE LA HERRAMIENTA AUTOMATIC POS-TAGGER, EN PROCESO DE IMPLEMENTACION POR EL DR. MIRANDA GARCIA, MIEMBRO DEL EQUIPO INVESTIGADOR.LA CONSECUCION DE ESTOS MICRO-OBJETIVOS DERIVARA EN LA PUBLICACION DE A) LA EDICION DIPLOMATICA/CRITICA DE LOS TRATADOS CIENTIFICOS ESTUDIADOS AL AMPARO DEL PROYECTO, DOTANDO DE ESTA MANERA A LA COMUNIDAD CIENTIFICA DE FUENTES PRIMARIAS HASTA AHORA INEDITAS (LA COLECCION MIDDLE ENGLISH TEXT SERIES DIRIGIDA POR LOS DRES. GONZALEZ FERNANDEZ-CORUGEDO Y MIRANDA-GARCIA SE CONTEMPLA, ENTRE OTROS, COMO POSIBLE DESTINO DE PUBLICACION); Y B) ARTICULOS EN REVISTAS ESPECIALIZADAS Y CAPITULOS DE LIBRO UTILIZANDO LOS DATOS EXTRAIDOS DE LA VERSION FINAL DEL CORPUS.NO EXISTE, HASTA DONDE SE HA PODIDO INVESTIGAR, UN CORPUS ANOTADO DE PROSA CIENTIFICA MEDIEVAL CON ESTAS CARACTERISTICAS Y, EN COMPAÑIA DE LA HERRAMIENTA SOFTWARE TEXT SEARCH ENGINE, ESTIMAMOS QUE LOGRARA CONVERTIRSE EN FUENTE DE REFERENCIA FUNDAMENTAL PARA LA INVESTIGACION. NGLES MEDIO\ETIQUETADO\ANOTACION\COMPILACION DE CORPUS