Descripción del proyecto
Las tecnologías de Text Analytics analizan el contenido textual no estructurado, que llega hasta el 80% de todos los datos disponibles en las empresas (documentos, correos electrónicos, información de Social Media y otra información basada en texto), con el objetivo de extraer información relevante y transformarla en una ventaja competitiva y estratégica para las empresas. Estas tecnologías tienen prometedoras oportunidades de crecimiento en la industria: se pronostica que el mercado global crecerá desde los 2,65 miles de millones dólares en 2015 a casi 6 mil millones en 2020, a una tasa compuesta anual del 17,5%. Otros estudios inciden en el potencial del área, e incluso mejoran las cifras esperadas . En términos de regiones, se espera que Norteamérica siga siendo el mercado más grande en términos de tamaño, mientras que Europa y Asia experimenten una mayor tracción de mercado durante el periodo de pronóstico. En ese sentido, el Ministerio de Industria ha anunciado recientemente el Plan de Impulso de las Tecnologías del Lenguaje , dotado con 90 millones de euros, con el objetivo de fomentar el desarrollo del procesamiento del lenguaje natural en lengua española, aumentar el número, calidad y disponibilidad de las infraestructuras lingüísticas en español e lenguas cooficiales; impulsar la Industria del lenguaje en España.Sin embargo, a pesar de las soluciones comerciales disponibles, la mayoría de los datos no estructurados permanecen ocultos debido a la falta de herramientas adecuadas para su análisis, que no utilizan las últimas innovaciones tecnológicas en las áreas de procesamiento lingüístico y desambiguación semántica para dominios abiertos en detección de entidades nombradas, minería de opiniones o resúmenes automático de texto, ni los beneficios que supone la utilización de las grandes bases de conocimiento estructurado disponibles. La mayoría de las soluciones comerciales actuales de TextAnalytics se han basado en bases de conocimiento propietarias que son limitadas en tamaño y alcance y, además, son gestionadas por las propias empresas que ofrecen dichos servicios, lo que ralentiza mucho su evolución y curación de datos erróneos. Por otro lado, aquéllas basadas en bases de conocimiento libres (por ejemplo, Wikipedia, DBpedia, etc.) han demostrado la utilidad industrial de Open Data pero con opciones de análisis sencillo (p. e. keywords) o enfoques puramente estadísticos, por lo que obtienen una baja precisión y su base de conocimiento no es mejorada ni curada. El proyecto esTextAnalytics propone el desarrollo de servicios de Text Analytics en la Nube, mediante el uso de procesamiento del lenguaje natural (NLP) y tecnologías semánticas de anotación y desambiguación, y con la utilización de esDBpedia como base de conocimiento, mejorada con la incorporación de mecanismos automáticos de diagnóstico, reparación y actualización de conocimiento erróneo, así como la gestión de automática de licencias para la incorporación de conocimiento externo propietario. En ese sentido, el proyecto esTextAnalytics explotará los beneficios que supone esDBpedia como fuente de grandes volúmenes de datos abiertos y recursos lingüísticos disponibles en la Web de Datos enlazados para mejorar la calidad de las herramientas de procesamiento de lenguaje natural. Por tanto, las ventajas que proporciona frente a otros tipos de recursos cerrados como WordNet, que han sido utilizado como bases de conocimientos en numerosos tareas relacionadas con el procesamiento del lenguaje, son: su naturaleza abierta, su continua evolución de forma colaborativa, y su crecimiento incremental mediante la inclusión de nuevos recursos y la creación de enlaces con los ya existentes. Sin embargo, su uso tampoco está exenta de riesgos, siendo necesaria la provisión de servicios capaces de diagnosticar la calidad de los datos abiertos y de repararlos en caso de que fuera necesario, previo a su utilización en los procesos de análisis del lenguaje necesarios.