Descripción del proyecto
ESTE PROYECTO DE INVESTIGACION TRATA DEL DESARROLLO DE TECNICAS Y HERRAMIENTAS INFORMATICAS PARA EL ANALISIS TEXTUAL CONTRASTIVO Y TIENE UNA DOBLE FINALIDAD:- POR UN LADO, COMPLEMENTARSE CON LOS OTROS SUBPROYECTOS TRACE, MEDIANTE EL DESARROLLO DE TECNICAS ALGORITMICAS EFICIENTES DE COMPARACION Y MARCADO AUTOMATIZADO DE TEXTOS PARALELOS, Y EL SUMINISTRO DE HERRAMIENTAS PRACTICAS PARA TALES PROPOSITOS.- POR OTRO LADO, NUTRIRSE DE LOS DEMAS SUBPROYECTOS PARA EXPERIMENTAR EN LA APLICACION DE TECNICAS DE MINERIA DE DATOS Y MINERIA DE TEXTOS [12] SOBRE LOS CORPUS PARALELOS DE TRACE Y SUS BASES DE METADATOS.HERRAMIENTAS PARA LA ALINEACION SEMIAUTOMATICA DE TEXTOS:PARTIENDO DE LA BASE DE NUESTROS PROPIOS TRABAJOS PREVIOS SOBRE COMPARACION Y ALINEACION DE TEXTOS [1, 2], Y DE LOS TRABAJOS DE ØYSTEIN REIGEM Y KNUT HOFLAND (TRANSLATION CORPUS ALIGNER) [3-5], SCHREIBMAN ET AL, (THE VERSIONING MACHINE) [6] Y OTROS [7, 8], SE DESARROLLARA UN ENTORNO PARA LA ALINEACION SEMIAUTOMATICA DE TEXTOS EN DIFERENTES IDIOMAS PARA SER USADO POR LOS SUBPROYECTOS TRACE.HERRAMIENTAS PARA EL MARCADO AUTOMATICO DE TEXTOS:TAMBIEN SE MEJORARA EL MARCADO SEMIAUTOMATICO DE TEXTOS XML, MEDIANTE HEURISTICAS BASADAS EN ASPECTOS MORFOLOGICOS PARTICULARES DE LOS TEXTOS DE TRACE, PARTIENDO DE DESARROLLOS PROPIOS PREVIOS [9].HERRAMIENTAS PARA EL ANALISIS DE DATOS:SOBRE LAS BASES DE DATOS DISPONIBLES DE OBRAS LITERARIAS, SE DISEÑARAN PROCESOS ANALITICOS, USANDO TECNICAS ESTADISTICAS [10], Y TECNICAS PROPIAS DE MINERIA DE DATOS [11]. TALES PROCESOS SERAN DE UN TIPO U OTRO DEPENDIENDO DE LA NATURALEZA DE LAS VARIABLES A CONSIDERAR. ASI, EN ESTE PROYECTO SE PROPONE DISEÑAR:- MODULO DE AGRUPAMIENTO AUTOMATICO DE OBRAS, CUANDO LAS VARIABLES A CONSIDERAR SEAN TODAS DE TIPO NUMERICO, COMO POR EJEMPLO: NUMERO DE PAGINAS, AÑO DE PUBLICACION, DIFERENTES RANKINGS, ETC. EL PROCESO DE AGRUPAMIENTO AUTOMATICO SE LLEVARA A CABO IMPLEMENTANDO ALGORITMOS DE CLUSTERING ADAPTATIVO, BASADOS EN ENTORNOS DE VECINDAD. TRAS APLICAR TAL MODULO, SE OBTENDRAN GRUPOS DE OBRAS SIMILARES ENTRE SI, ATENDIENDO A LOS CRITERIOS MULTIPLES ELEGIDOS POR EL USUARIO.- MODULO DE CLASIFICACION AUTOMATICA DE OBRAS, CUANDO LAS VARIABLES A CONSIDERAR SEAN DE TIPO NOMINAL, COMO POR EJEMPLO: NACIONALIDAD, GENERO LITERARIO, USO DE CIERTOS RECURSOS LITERARIOS, ETC. DICHO PROCESO SE LLEVARA A CABO IMPLEMENTANDO ALGORITMOS GENERADORES DE REGLAS DE CLASIFICACION. TRAS APLICAR EL MODULO, LA COLECCION DE OBRAS DE LA BASE DE DATOS QUEDARA CLASIFICADA EN FUNCION DE LOS PARAMETROS QUE CONDUCEN A CIERTOS VALORES DE LA VARIABLE DE CLASIFICACION ELEGIDA EN CADA CASO.DIFERENTES TECNICAS DE MINERIA DE DATOS SERAN TAMBIEN OFRECIDAS PARA EL PREPROCESAMIENTO OPTIMO DE LAS BASES DE DATOS LITERARIAS, QUE POR DIFERENTES RAZONES NECESITEN AUTOCOMPLETAR VALORES PERDIDOS, DETECTAR VALORES ANOMALOS O SIMPLEMENTE REQUIERAN PROPORCIONAR ESTADISTICAS DESCRIPTIVAS Y GRAFICAS DE LAS MISMAS, ATENDIENDO A DIFERENTES CRITERIOS, POR EJEMPLO: MOSTRAR LA DISTRIBUCION DE OBRAS DE UN DETERMINADO GENERO DURANTE UN DETERMINADO PERIODO DE TIEMPO.DESARROLLO DE UNA BIBLIOTECA DIGITAL DE RECURSOS ONLINE: BASE DE DATOS + CORPUSEL PROPOSITO FINAL ES DESARROLLAR UNA PLATAFORMA WEB QUE SOPORTE TANTO LAS BASES DE METADATOS DE TRACE, COMO EL CORPUS BILINGUE, PERMITIENDO LA APLICACION DE TECNICAS DE ANALISIS ONLINE, COMO LAS DESCRITAS ANTERIORMENTE.