Descripción del proyecto
LA SOCIEDAD DE LA INFORMACION GENERA ENORMES CANTIDADES DE DATOS TEXTUALES VALIOSOS EN DIFERENTES DOMINIOS, HASTA TAL PUNTO QUE A MENUDO ES DIFICIL O IMPOSIBLE PARA LOS HUMANOS MANTENERSE AL DIA, GESTIONARLOS Y OBTENER UNA VISION GLOBAL CLARA QUE SE PUEDA UTILIZAR EFICAZMENTE PARA LA TOMA DE DECISIONES. EN LA PANDEMIA DE COVID-19 TENEMOS UN EJEMPLO RECIENTE EN EL CUAL GOBIERNOS, INSTITUCIONES E INVESTIGADORES HAN EXPERIMENTADO DIFICULTADES PARA LIDIAR CON EL RITMO AL QUE APARECIAN NUEVOS ESTUDIOS Y HALLAZGOS CIENTIFICOS. PERO ESTE MISMO PROBLEMA SE EXTIENDE A AREAS COMO EL DERECHO, LA ECONOMIA, LAS PATENTES O PRACTICAMENTE CUALQUIER AREA DEL CONOCIMIENTO HUMANO.POR TANTO, PARA AVANZAR HACIA UNA SOCIEDAD DEL CONOCIMIENTO, ES FUNDAMENTAL DISPONER DE HERRAMIENTAS ADECUADAS PARA GESTIONAR ESTA RIQUEZA DE DATOS. EN ESTE CONTEXTO, LA MINERIA DE TEXTOS ES UN ACTIVO CRUCIAL PARA EXTRAER LA INFORMACION RELEVANTE DE GRANDES VOLUMENES DE TEXTOS, Y EL RECONOCIMIENTO DE ENTIDADES NOMBRADAS (NER), QUE IDENTIFICA REFERENCIAS A ENTIDADES EN UN TEXTO Y LAS CLASIFICA EN CATEGORIAS PREDEFINIDAS, ES UNA PIEDRA ANGULAR DE LA EXTRACCION DE INFORMACION. NO OBSTANTE, LA NER ESTA TODAVIA LEJOS DE CONSIDERARSE UNA TAREA RESUELTA, ESPECIALMENTE EN DOMINIOS ESPECIALIZADOS COMPLEJOS.EN ESTE PROYECTO, NUESTRO OBJETIVO ES MEJORAR LA PRECISION DE LOS SISTEMAS DE NER MANTENIENDO SU EFICIENCIA Y ESCALABILIDAD. PARA ELLO, ABORDAREMOS EL PROBLEMA ABIERTO DE CUAL ES LA MEJOR MANERA DE INTEGRAR INFORMACION LINGUISTICA JERARQUICA EN TAREAS DE ETIQUETADO SECUENCIAL. SI BIEN ES CONOCIDO QUE LA INFORMACION SINTACTICA PUEDE MEJORAR LA PRECISION DE LOS SISTEMAS DE NER, LOS ENFOQUES EXISTENTES LA HAN UTILIZADO DE MANERA PARCIAL Y SUPERFICIAL, O BIEN HAN NECESITADO RECURRIR A COMPLEJAS ARQUITECTURAS AD-HOC PARA PODER EMPLEAR ARBOLES SINTACTICOS COMPLETOS, MEJORANDO LA PRECISION A COSTA DE DE SACRIFICAR LA GENERICIDAD Y EFICIENCIA DE LOS ENFOQUES TRADICIONALES DE ETIQUETADO DE SECUENCIAS PARA NER. EN CAMBIO, NUESTRA PROPUESTA ES APROVECHAR UN AVANCE RECIENTE LOGRADO DENTRO DE NUESTRO EQUIPO: LA REDUCCION DEL ANALISIS SINTACTICO A UNA TAREA DE ETIQUETADO SECUENCIAL, CODIFICANDO ARBOLES COMO SECUENCIAS DE ETIQUETAS. ESTO NOS PERMITIRA INTEGRAR ARBOLES SINTACTICOS PROFUNDOS CON LA NER MEDIANTE EL USO DE APRENDIZAJE MULTITAREA EN EL CONTEXTO DE UNA ARQUITECTURA DE ETIQUETADO SECUENCIAL Y, MEDIANTE EL DESARROLLO DE CODIFICACIONES PARA REPRESENTACIONES SEMANTICAS, HACER LO PROPIO CON INFORMACION SEMANTICA. POR LO TANTO, UTILIZAREMOS COMPLETAMENTE LA INFORMACION SINTACTICA Y SEMANTICA PARA MEJORAR LA PRECISION, SIN RENUNCIAR A LA EFICIENCIA DEL ETIQUETADO SECUENCIAL PARA TRATAR GRANDES VOLUMENES DE TEXTO.ADEMAS, APLICAREMOS DISTINTAS MEJORAS PARA GANAR MAYOR VELOCIDAD Y PRECISION EN EL SISTEMA EN SU CONJUNTO, CENTRANDONOS EN LA ROBUSTEZ ANTE TEXTOS RUIDOSOS, LA ADAPTACION A DOMINIOS ESPECIALIZADOS, LA OPTIMIZACION DEL PROCESO DE ENTRENAMIENTO Y EL MANEJO DE LA DIVERSIDAD EN ENTIDADES Y SUS FORMAS ESCRITAS.EN PARTICULAR, ESTE SUBPROYECTO SE CENTRARA EN LOS ASPECTOS DEL PROYECTO RELACIONADOS CON LA INTEGRACION DE LA SINTAXIS: MEJORAR LA VELOCIDAD Y PRECISION DEL ANALISIS SINTACTICO COMO ETIQUETADO SECUENCIAL, EL DESARROLLO DE CODIFICACIONES PARA ANALISIS SINTACTICO DE DEPENDENCIAS MEJORADAS, ASI COMO LA APLICACION DEL APRENDIZAJE MULTITAREA PARA COMBINAR INFORMACION JERARQUICA CON NER BAJO ETIQUETADO SECUENCIAL. ROCESAMIENTO DEL LENGUAJE NATURAL\APRENDIZAJE MULTITAREA\ETIQUETADO SECUENCIAL\ANALISIS SEMANTICO\ANALISIS SINTACTICO\MINERIA DE TEXTOS\EXTRACCION DE INFORMACION\RECONOCIMIENTO DE ENTIDADES NOMBRADAS\LINGUISTICA COMPUTACIONAL