Descripción del proyecto
TEXT-KNOWLEDGE 2,0 TIENE COMO OBJETIVO EL DESARROLLO Y ADAPTACION DE RECURSOS, HERRAMIENTAS Y METODOS DE TLH PARA EL MODELADO, ANALISIS Y TRATAMIENTO DE INFORMACION TANTO EXPLICITA COMO NO EXPLICITA NECESARIA PARA AFRONTAR EL PROCESAMIENTO DEL LENGUAJE NATURAL EN SUS DIVERSOS REGISTROS Y MODALIDADES EN EL MARCO DE LA WEB 2,0, EN ESTE NUEVO MARCO DE TRABAJO, DESDE EL PUNTO DE VISTA DEL ANALISIS LINGUISTICO SE DEBE AFRONTAR EL PROCESAMIENTO DEL LENGUAJE EN NUEVAS MODALIDADES, FUNDAMENTALMENTE EL REGISTRO ESCRITO INFORMAL QUE ENCONTRAMOS EN WIKIS, BLOGS, FOROS ONLINE, PAGINAS DE NEGOCIO, ETC, ESTE REGISTRO, HASTA HACE POCO PATRIMONIO EXCLUSIVO DE LA LENGUA ORAL, OBLIGA A REPLANTEAR LA METODOLOGIA DE ANALISIS LINGUISTICO DESARROLLADA HASTA AHORA: ORACIONES INCONCLUSAS, REPETICIONES CON VALOR ENFATICO Y MARCAS PARATEXTUALES SON ALGUNOS EJEMPLOS DE LA PROBLEMATICA QUE HAY QUE TRATAR, ADEMAS, ESTE NUEVO REGISTRO DEBE TRATARSE EN GRANDES VOLUMENES DE TEXTOS PROCEDENTES DE LOS DIFERENTES FORMATOS EXISTENTES EN ESTE ENTORNO COMUNICATIVO, PARA LA CONSECUCION DE ESTOS OBJETIVOS ES NECESARIO TANTO LA CONSOLIDACION DE LOS RECURSOS LINGUISTICOS YA INICIADOS EN PROYECTOS ANTERIORES COMO EL DESARROLLO DE NUEVOS RECURSOS QUE HAN DE PERMITIR DETECTAR LA INFORMACION SUBJETIVA, DETERMINAR LA ORIENTACION SEMANTICA DE LOS TEXTOS Y LA ELABORACION DE NUEVAS ESTRUCTURAS DE RAZONAMIENTO, LA CONSOLIDACION DE LOS RECURSOS DISPONIBLES IMPLICA LA COMPLECION DE LA ANOTACION DE CORPUS EXISTENTES, LA AMPLIACION A OTROS CORPORA Y LA ELABORACION DE NUEVOS LEXICOS, ASI COMO LA EXTENSION A OTRAS LENGUAS (HASTA EL MOMENTO SE HA TRABAJADO CON EL ESPAÑOL Y CATALAN, PREFERENTEMENTE) DE LA METODOLOGIA YA DESARROLLADA, EN LO REFERENTE AL TRATAMIENTO DE LOS NUEVOS REGISTROS QUE IMPLICA EL PROCESAMIENTO DE TEXTOS PRODUCIDOS EN LA COMUNICACION ESPONTANEA DE ORIGEN ORAL O ESCRITO: A) SE CREARAN NUEVOS CORPUS I LEXICONES CON ETIQUETADO ESPECIFICO PARA EL TRATAMIENTO DE LA PARAFRASIS, LA TEMPORALIDAD I LAS NUEVAS MARCAS DE LA WEB 2,0: SENTIMIENTOS, POLARIDAD E INTENSIDAD, B) SE DESARROLLARAN TECNICAS Y METODOS PARA LA DETECCION DE ESTRUCTURAS LINGUISTICAS NO ESTANDAR PROPIAS DEL LENGUAJE EXPONTANEO, ACTUALMENTE SE DISPONE YA DE HERRAMIENTAS POTENTES PARA LA ANOTACION AUTOMATICA DE CORPUS A NIVEL MORFOLOGICO Y SINTACTICO SUPERFICIAL LO CUAL PERMITE PROPONER NUEVAS ESTRATEGIAS PARA EL TRATAMIENTO MASIVO DE INFORMACION, EN ESPECIAL PARA DETECTAR PIEZAS DE INFORMACION, CONSTRUCCIONES RELEVANTES DESDE EL PUNTO DE VISTA DEL CONTENIDO TEXTUAL PERO QUE NO CORRESPONDEN A LAS UNIDADES ESTANDAR DEL ANALISI TRADICIONAL, SE TRATA POR TANTO DE DETECTAR EXPRESIONES SEMI-PRECONSTRUIDAS, RELACIONES ENTRE CATEGORIAS GRAMATICALES, RELACIONES ENTRE ITEMS LEXICOS Y ESTRUCTURAS GRAMATICALES COOCURRENTES, C) SE DESARROLLARAN RECURSOS Y TECNICAS PARA LA DETECCION DE SENTIMIENTOS Y EMOCIONES, TODO ELLO TIENE COMO OBJETIVO ULTIMO LA AMPLIACION DE LAS TEORIAS SOBRE EL LENGUAJE HUMANO, QUE HASTA EL MOMENTO SE HAN CIRCUNSCRITO DE MANERA PREFERENTE AL ANALISIS DE LA LENGUA ESTANDAR DE BASE NORMATIVA, DE MANERA QUE INCLUYAN LA LENGUA ORAL Y ESCRITA EN CONTEXTOS DE USO INFORMAL, CON EL OBJETIVO DE DIFUNDIR LOS RESULTADOS OBTENIDOS Y FOMENTAR LA INVESTIGACION EN LAS LENGUAS OBJETO DE ESTUDIO, EL GRUPO PARTICIPA SISTEMATICAMENTE EN DIFERENTES COMPETICIONES INTERNACIONALES COMO SON SEMEVAL, CONLL Y ARE, EL GRUPO ORGANIZA UN WORKSHOP CADA DOS AÑOS, EL CBA-CORPUS BASED APPROACHES TO DISCOURSE ANALISYS, PROCESAMIENTO DEL LENGUAJE\WEB 2.0