Descripción del proyecto
ESTE PROYECTO TIENE COMO OBJETIVO SOLVENTAR LAS LIMITACIONES QUE PRESENTA EL SISTEMA DE ANALISIS DE SENTIMIENTO BASADO EN LEXICO DESARROLLADO POR NUESTRO GRUPO DE INVESTIGACION, PARA ELLO, PROPONEMOS IMPLEMENTAR UN ANALISIS CONTEXTUAL EN DOS NIVELES COMPLEMENTARIOS: UNO LOCAL, A NIVEL DE ORACION Y OTRO CONTEXTUAL A NIVEL DE DOCUMENTO, EL PRIMERO DE ELLOS SE LLEVA A CABO EN EL SISTEMA ACTUAL POR MEDIO DE UN CONJUNTO AMPLIO REGLAS DE CONTEXTO, QUE ARROJAN BUENOS RESULTADOS EN CUANTO A LA PRECISION, PERO PRESENTA LIMITACIONES EN CUANTO A LA EXHAUSTIVIDAD, MIENTRAS QUE EL SEGUNDO NIVEL NO SE HA IMPLEMENTADO HASTA EL MOMENTO, EL SISTEMA QUE PROPONEMOS PARA PROCESAR EL CONTEXTO LOCAL, QUE DENOMINAMOS "MODIFICADORES CONTEXTUALES DE VALENCIA AVANZADOS" (ACVS) PODRA LOCALIZAR Y PROCESAR DEPENDENCIAS SINTACTICAS A NIVEL ORACIONAL, ASI COMO RASGOS DISCURSIVOS Y CATEGORIAS SEMANTICAS, DE FORMA QUE PROPORCIONARA UN GRAN PODER EXPRESIVO PARA REPRESENTAR Y PROCESAR REGLAS COMPLEJAS (POR EJEMPLO, "EN EL CASO DE QUE UN VERBO DE DESEO VAYA ACOMPAÑADO DE UNA CLAUSULA EN LA QUE APARECE UNA EXPRESION CON POLARIDAD, ESTA HA DE INVERTIRSE"), TAMBIEN SERAN UTILES PARA RESOLVER PROBLEMAS LEXICOS RECURRENTES EN EL ANALISIS DE SENTIMIENTO: LA DESAMBIGUACION DE PALABRAS Y FRASES AMBIGUAS EN CUANTO A SU CARGA AFECTIVA (POR EJEMPLO "WICKED", "DAZZLE", "KILL", "FUNNY" EN INGLES) Y, EN MENOR MEDIDA, CASOS DE SARCASMO CUANDO EXISTAN MARCADORES FORMALES, NOS PROPONEMOS IMPLEMENTAR DICHO SISTEMA DE REGLAS USANDO LOS COMPONENTES DE LA LIBRERIA PARA EL PROCESAMIENTO DE LENGUAJE NATURAL EN PYTHON DE SPACY, CONCRETAMENTE LOS COMPONENTES PARA EL ETIQUETADO SINTACTICO Y EL MATCHER, EXTRAEREMOS EL CONOCIMIENTO LINGUISTICO NECESARIO DE UN CORPUS, PARA LO QUE USAREMOS LAS REGLAS DE CONTEXTO CON LAS QUE YA CONTAMOS, ANOTAREMOS UN CORPUS INICIAL, USANDO LA HERRAMIENTA PRODIGY, QUE INCORPORA METRICAS DE PRECISION Y EXHAUSTIVIDAD Y OFRECE SOPORTE PARA SPACY,EL ANALISIS DE CONTEXTO GLOBAL MEJORARA LA CLASIFICACION A NIVEL DE DOCUMENTO, POR MEDIO DE (1)LOS SEGMENTOS NUCLEARES DEL TEXTO A NIVEL DISCURSIVO Y (2) LOS SEGMENTOS TEXTUALES QUE DETERMINAN LA CARGA VALORATIVA Y DECIDEN LA POLARIDAD GLOBAL DEL TEXTO, EN ESTE PROYECTO PROPONEMOS USAR LA TEORIA DE LA ESTRUCTURA RETORICA (RST), AUNQUE TAMBIEN COMPARAREMOS NUESTROS RESULTADOS CON AQUELLOS OFREZCAN METODOLOGIAS MENOS COMPLEJAS, COMO EL "SHALLOW DISCOURSE PARSING", ASI MISMO, NOS PROPONEMOS IMPLEMENTAR NUESTRA PROPIA HERRAMIENTA DE PARSING DISCURSIVO, PARA ADQUIRIR EL CONOCIMIENTO LINGUISTICO EN AMBOS NIVELES DE ANALISIS EMPLEAREMOS UNA METODOLOGIA EMPIRICA, BASADA EN EL PROCESAMIENTO DE DATOS, EXTRAEREMOS LOS DATOS PARA EL ENTRENAMIENTO Y LA EVALUACION DE UN CORPUS DE TAMAÑO MEDIO, DEL QUE EXTRAEREMOS LA INFORMACION Y MEDIREMOS LOS RESULTADOS, USANDO PROCEDIMIENTOS STANDARD DE EVALUACION BASADOS EN UN DATASET GOLD STANDARD, ANOTADO MANUALMENTE, LAS ANOTACIONES SERAN NECESARIAS A NIVEL DE CONTEXTO LOCAL (PARA EL SISTEMA DE REGLAS DE CONTEXTO AVANZADAS) Y A NIVEL GLOBAL (PARA EL SISTEMA DE PARSING DISCURSIVO), AUNQUE TODAVIA NO SE HAN DECIDIDO EL TAMAÑO Y LAS FUENTES DEL CORPUS, ESTARA FORMADO POR TEXTOS DE OPINION EXTRAIDOS MAYORITARIAMENTE DE MEDIOS Y SOCIALES, EN LA ACTUALIDAD NUESTRO SISTEMA DA SOPORTE A INGLES, ESPAÑOL, FRANCES Y CATALAN, EN ESTE PROYECTO DESARROLLAREMOS LOS COMPONENTES MENCIONADOS PARA INGLES Y ESPAÑOL, PUESTO QUE LOS RECURSOS LEXICOS PARA LAS OTRAS DOS LENGUAS TODAVIA REQUIEREN UN MAYOR DESARROLLO, ANALISIS DE SENTIMIENTO\MODIFICADORES CONCEPTUALES DE VALENCIA\ANALISIS DEL DISCURSO\ESTRUCTURA RETORICA\RECURSOS LEXICOS