Descripción del proyecto
HAY GRAN INTERES EN EL ANALISIS Y RECONOCIMIENTO DE DOCUMENTOS HISTORICOS, PARA PRESERVAR COLECCIONES HISTORICAS DE DOCUMENTOS EXISTENTES EN ARCHIVOS Y CONVERTIRLOS EN BIBLIOTECAS DIGITALES, SIN EMBARGO, HAY UNA GRAN BRECHA EN EL PROCESO DE CONVERSION DE DOCUMENTOS EN PAPEL A INFORMACION UTIL, LUEGO DE DIGITALIZAR DOCUMENTOS EN PAPEL, LA CLAVE ES EXTRAER LA INFORMACION DE ESTOS DOCUMENTOS, QUE GENERALMENTE SE LLEVA A CABO UTILIZANDO RECONOCIMIENTO DE MANUSCRITOS Y TECNICAS DE LOCALIZACION DE PALABRAS CLAVE, SIN EMBARGO, LA EXTRACCION DE CONTENIDOS SEMANTICOS ES NECESARIA PARA HACER ESTA INFORMACION REALMENTE UTIL, DOCS4ALL ES UN SUBPROYECTO DEL PROYECTO COORDINADO MIRANDA QUE TIENE COMO OBJETIVO ESTRECHAR LA BRECHA SEMANTICA ENTRE LA TRANSCRIPCION DEL DOCUMENTO Y LA EXTRACCION DEL CONOCIMIENTO SEMANTICO A TRAVES DE LA EXTRACCION, INTERPRETACION Y VINCULACION DE LOS CONTENIDOS SEMANTICOS, LAS SIGUIENTES CUESTIONES DE INVESTIGACION EXPONEN LOS OBJETIVOS DE ESTE PROYECTO, PRIMERO, EN MANUSCRITOS HISTORICOS QUE SUMINISTRAN INFORMACION DE PERSONAS, EVENTOS, LUGARES, ETC, ES NECESARIO IDENTIFICAR LAS ENTIDADES NOMBRADAS, ASOCIANDO LA TRANSCRIPCION A LAS CLASES SEMANTICAS (NOMBRES, FECHAS, CANTIDADES,
), SEGUNDO, A MENUDO EL CONOCIMIENTO ESTA DISPERSADO EN VARIOS DOCUMENTOS HETEROGENEOS Y ES NECESARIO ENCONTRAR RELACIONES ENTRE LOS TERMINOS VISUALES EXTRAIDOS DE LAS IMAGENES, POR EJEMPLO, UN REGISTRO DE MATRIMONIO ESCRITO A MANO PUEDE ESTAR ASOCIADO CON UNA IMAGEN DEL MATRIMONIO, ESTO NOS LLEVA A LA NECESIDAD DE DEFINIR EMBEDDINGS SEMANTICOS CONJUNTOS ENTRE FUENTES HETEROGENEAS DE INFORMACION VISUAL, ESTO PERMITIRA CONSTRUIR MODELOS QUE EXTRAEN RELACIONES SEMANTICAS ENTRE IMAGENES, UN TERCER PROBLEMA ES QUE EN EL RECONOCIMIENTO VISUAL DE OBJETOS, LA ESTRUCTURA NOS DA UNA SEÑAL IMPORTANTE, A VECES MAS RICA QUE LAS CARACTERISTICAS INDIVIDUALES, ES POR ELLO QUE EXPLORAREMOS REPRESENTACIONES Y METODOS BASADOS EN GRAFOS, EN PARTICULAR, MODELOS DE GEOMETRIC DEEP LEARNING PARA RECONOCER PATRONES ESTRUCTURALES (RELACIONES ENTRE DATOS MAS QUE CARACTERISTICAS INDIVIDUALES), LA CUARTA CONSIDERACION ES QUE LAS ACTUALES TECNICAS DE MACHINE LEARNING REQUIEREN GRAN CANTIDAD DE DATOS PRE-ANOTADOS, EN EL RECONOCIMIENTO DE IMAGENES HISTORICAS ESTE REQUISITO NO SE CUMPLE SIEMPRE DADA LA GRAN CANTIDAD DE TIPOS Y LA DIFICULTAD DE LA ANOTACION MANUAL, ASI, PARA HACER FRENTE LA AUSENCIA DE DATOS DE ENTRENAMIENTO, INVESTIGAREMOS NUEVAS TENDENCIAS EN ZERO-SHOT Y FEW-SHOT LEARNING, ADEMAS, TRABAJAREMOS EN LA GENERACION SINTETICA DE IMAGENES MEDIANTE DIFERENTES ESTRATEGIAS (REGISTRO ENTRE IMAGENES REALES Y SINTETICAS, TRANSFERENCIA DE ESTILO DE FOTOGRAFIAS ANTIGUAS A NUEVAS PARA AUMENTO DE DATOS Y GENERACION DE MANUSCRITO), EN EL SUBPROYECTO DOCS4ALL TAMBIEN DAMOS IMPORTANCIA AL PAPEL DE LOS USUARIOS COMO CO-CREADORES DE CONOCIMIENTO HISTORICO, EN PARTICULAR, IMPLEMENTAREMOS GAMIFICACION PARA VALIDAR ALGORITMOS DE EXTRACCION DE INFORMACION, Y EXPERIENCIAS DE CIENCIA CIUDADANA EN LA INFRAESTRUCTURA DEL LIBRARY LIVING LAB DEL CVC PARA FOMENTAR EL ACCESO Y EL AUMENTO DEL CONOCIMIENTO HISTORICO POR PARTE DE LOS USUARIOS, VISIÓN POR COMPUTADOR\RECONOCIMIENTO DE FORMAS\RECONOCIMIENTO DE DOCUMENTOS\IMÁGENES DE DOCUMENTOS HISTÓRICOS\RECONOCIMIENTO DE MANUSCRITO\MODELAJE SEMÁNTICO\CIENCIA CIUDADANA\PATRIMONIO CULTURAL\HUMANIDADES DIGITALES