Descripción del proyecto
ESTE PROYECTO SE CENTRA EN EL ESTUDIO DE LA APLICACION DE LAS MAS RECIENTES TECNICAS DE APRENDIZAJE PARA LA EXTRACCION DE CONTENIDO SEMANTICO EN DOCUMENTOS DIGITALIZADOS QUE INCLUYAN: TEXTO (MANUSCRITO Y MECANOGRAFIADO), FOTOGRAFIAS O ILUSTRACIONES, DICHO OBJETIVO ESTA EN LINEA CON LAS CRECIENTES NECESIDADES ACTUALES DE TRASPASO DE INFORMACION DESDE EL MUNDO FISICO AL MUNDO DIGITAL,LA MERA TRASCRIPCION DE LOS CARACTERES Y PALABRAS QUE OFRECEN LOS ACTUALES SISTEMAS DE RECONOCIMIENTO DE DOCUMENTOS NO APORTAN EL CONTENIDO SEMANTICO QUE ACTUALMENTE PRECISAN LOS PROCESOS DE TRASVASE DESDE EL MUNDO FISICO AL MUNDO DIGITAL, LA IDENTIFICACION DE LOS ACTORES PRESENTES EN EL DOCUMENTO, LA CONSTRUCCION AUTOMATICA DE RESUMENES, LA CLASIFICACION AUTOMATICA DEL TIPO DE TEXTO, SON PROBLEMAS ABIERTOS QUE ESTE PROYECTO ABORDARA, AUNQUE LA EXTRACCION DEL CONTENIDO SEMANTICO RESULTA UN OBJETIVO ALCANZABLE EN PROBLEMAS CONCRETOS, EL PROBLEMA DESDE UNA PERSPECTIVA GENERAL RESULTA AMBICIOSO, ADEMAS, LOS TRABAJOS QUE PUEDEN ENCONTRARSE EN LA BIBLIOGRAFIA, NO CONTEMPLAN LOS PROBLEMAS DERIVADOS DE LOS ERRORES QUE SUELEN PRODUCIRSE EN LOS PROCESOS DE RECONOCIMIENTO AUTOMATICO DE TEXTO, DICHOS ERRORES PUEDEN INFLUIR DE MANERA DETERMINANTE EN LA CALIDAD DE LOS TEXTOS SUJETOS A ANALISIS Y, POR TANTO, EN LOS RESULTADOS QUE SE OBTENGAN, LA SOLUCION A ESTE ESCENARIO ES UNO DE LOS OBJETIVOS DE ESTE PROYECTO, LOS SISTEMAS ACTUALES TAMPOCO ABORDAN EL PROBLEMA DE LA EXTRACCION DE INFORMACION DESDE LAS NUMEROSAS ILUSTRACIONES Y FOTOGRAFIAS QUE SUELEN ACOMPAÑAR A LOS TEXTOS, ESTE SERA OTRO DE LOS PRINCIPALES OBJETIVOS DE ESTE PROYECTO,OTRO ASPECTO QUE SE CONTEMPLA COMO RETO, EN LAS TAREAS DE EXTRACCION AUTOMATICA DE DOCUMENTOS, ES EL DE OBTENER UN INDICADOR DE LA AUTENTICIDAD DE UN DOCUMENTO DIGITALIZADO (POR EJEMPLO ENCONTRANDO DETALLES QUE INDIQUEN QUE CORRESPONDE A UNA FOTOCOPIA), EN ESTE PROYECTO TAMBIEN SE PRETENDE ABORDAR ESTE TIPO DE ANALISIS,FINALMENTE, EL RECONOCIMIENTO DE TEXTO MANUSCRITO OFF-LINE SE HA DEMOSTRADO QUE ES UN PROBLEMA DIFICIL DE RESOLVER, AUNQUE HAY SOLUCIONES PARA PROBLEMAS ACOTADOS (POR EJEMPLO LOS IMPORTES MANUSCRITOS EN LOS CHEQUES), NO EXISTEN SOLUCIONES GENERALES PARA LA LECTURA DE TEXTO MANUSCRITO SOBRE CUALQUIER TIPO DE DOCUMENTO, ESTOS MODERNOS ENFOQUES DE APRENDIZAJE PODRIAN ABRIR NUEVAS VIAS DE SOLUCION, ADEMAS, EL ESTUDIO DE LA PROBLEMATICA DEL CASTELLANO APENAS RECIBE ATENCION EN LA BIBLIOGRAFIA, PUES ES UN TEMA DEMASIADO ACTUAL Y DOMINADO POR EQUIPOS DE INVESTIGACION ANGLOSAJONES Y CHINOS,LA METODOLOGIA ELEGIDA PARA ABORDAR ESTE TRABAJO SE COMPONE DE 3 FASES, LA PRIMERA FASE, QUE YA ESTA INICIADA, CONSISTE EN CONTACTAR CON EMPRESAS DEL SECTOR DE LA DIGITALIZACION DE DOCUMENTOS, PARA QUE NOS PERMITAN ACCEDER A VOLUMENES IMPORTANTES DE MUESTRA REAL DE DOCUMENTOS DIGITALIZADOS, LA SEGUNDA FASE, QUE ESTA INICIANDOSE, CONSISTE EN EXPLORAR LAS MAS MODERNAS TECNOLOGIAS DE APRENDIZAJE AUTOMATICO Y VISION ARTIFICIAL (COMO APRENDIZAJE PROFUNDO, ACUMULACION DE EVIDENCIA O APRENDIZAJE BASADO EN ATRIBUTOS), DISEÑANDO LAS ADAPTACIONES QUE PERMITAN UTILIZARLAS PARA RESOLVER ESTE PROBLEMA, LA TERCERA FASE CONSISTIRA EN EL DESARROLLO Y PRUEBA DE LOS ALGORITMOS IDEADOS EN LA ETAPA ANTERIOR, RECONOCIMIENTO\IMAGEN\DOCUMENTO\SEMÁNTICO\CLASIFICACIÓN\VISIÓN\APRENDIZAJE\PROFUNDO\ATRIBUTOS