Descripción del proyecto
LA CANTIDAD DE DATOS QUE SE PRODUCE PUEDE SER ABRUMADORA, EN CANALES ONLINE LOS DATOS SE GENERAN MASIVAMENTE CADA SEGUNDO, LA MAYOR PARTE DEL CONTENIDO BIG DATA SUELE ESTAR EN FORMATO DE TEXTO LIBRE Y DEBE INTERPRETARSE PARA EXTRAER SU VALOR, COMO DIFICULTAD AÑADIDA, LOS TEXTOS QUE LOS USUARIOS GENERAN ONLINE PUEDEN ABARCAR UNA GRAN VARIEDAD DE TEMAS Y CAMPOS, Y SUELEN ESTAR ESCRITOS EN DIVERSOS IDIOMAS, ESTOS DATOS TIENEN POCO VALOR SI DEBEN ANALIZARSE MANUALMENTE, AUNQUE PUEDEN APORTAR INFORMACION VALIOSA CUANDO SE ANALIZAN ADECUADAMENTE, LAS TECNOLOGIAS BIG DATA SON FUNDAMENTALES PARA PROCESAR EFICIENTEMENTE GRANDES CANTIDADES DE INFORMACION, NO OBSTANTE, HOY EN DIA, UNO DE LOS PRIMEROS HANDICAPS PARA LA PUESTA EN MARCHA DEL ANALISIS DE BIG DATA SOBRE TODO POR PARTE DE LAS PYMES, ES LA COMPRENSION DEL TEXTO NO ESTRUCTURADO, CONVERTIR TEXTO RUIDOSO, AMBIGUO Y NO ESTRUCTURADO EN CONOCIMIENTO NO AMBIGUO Y MUY ESTRUCTURADO LISTO PARA SER USADO ESTA LEJOS DE CONSEGUIRSE, DE HECHO, LA MAYORIA DE LAS TECNOLOGIAS NLP ESTAN MUY FRAGMENTADAS Y SON DE DIFICIL ACCESO PARA LAS PYMES, ADEMAS, LA MAYORIA DE LAS TECNOLOGIAS NLP QUE SE DESARROLLAN PARA PROCESAR TEXTOS DE NOTICIAS NO FUNCIONAN BIEN EN OTROS TIPOS DE TEXTOS Y DOMINIOS LINGUISTICOS, QUE TIPICAMENTE VARIAN DEPENDIENDO DEL SECTOR DE APLICACION, ES MAS, NO TODOS LOS IDIOMAS ESTAN EQUITATIVAMENTE CUBIERTOS POR LA ACTUAL TECNOLOGIA NLP DEBIDO A LA FALTA DE RECURSOS ANOTADOS EN ALGUNOS DE LOS IDIOMAS, DONUT PROPORCIONARA METODOLOGIAS EFICACES PARA ADAPTAR LAS TECNICAS NLP Y ALGORITMOS DE UN DOMINIO A OTRO O DE UN TIPO DE TEXTO A OTRO (O AMBOS) Y ENTRE IDIOMAS,OBJETIVOS: DEFINIR EL MARCO DE APLICACION, ARQUITECTURA Y DISEÑO GENERAL PARA DESARROLLAR HERRAMIENTAS DE PROCESADO DE LENGUAJE NATURAL (NLP) LISTO PARA USAR, DE FACIL INTEGRACION Y CAPAZ DE PROCESAR BIG DATA PARA PODER EXTRAER INFORMACION RELEVANTE DE TEXTOS NO ESTRUCTURADOS EN MULTIPLES IDIOMAS, DESARROLLAR HERRAMIENTAS NLP PARA TAREAS DE EXTRACCION DE INFORMACION MAS INNOVADORAS TALES COMO NAMED ENTITY RECOGNITION (NER) Y CLASSIFICATION, NAMED ENTITY DISAMBIGUATION, NOMINAL CO-REFERENCE RESOLUTION, SEMANTIC ROLE LABELLING, Y EVENT DETECTION EN TEXTOS, DESARROLLAR HERRAMIENTAS ASPECT BASED SENTIMENT ANALYSIS (ABSA) PARA DETECTAR SENTIMIENTO/OPINION GENERAL EN UN DOCUMENTO O ASPECTOS/CARACTERISTICAS ESPECIFICAS DEL ELEMENTO A ANALIZAR, PROPORCIONAR TECNICAS PARA ADAPTAR LAS HERRAMIENTAS NLP MENCIONADAS MAS ARRIBA A OTROS DOMINIOS AVANZANDO EN EL ESTADO DEL ARTE EN LA INVESTIGACION SOBRE NLP Y FACILITANDO EL DESARROLLO DE HERRAMIENTAS PARA TRABAJAR ENTRE DOMINIOS, DESARROLLAR PROCESADORES NLP PARA IDIOMAS CON POCOS RECURSOS, MARCANDO EL CAMINO PARA CREAR LOS RECURSOS REQUERIDOS PARA CADA IDIOMA CUANDO LOS DATOS DE APRENDIZAJE NO ESTEN DISPONIBLES,RESULTADOS:EL PROYECTO ESTA DIRIGIDO A LAS SIGUIENTES NECESIDADES DE MERCADO PARA LOS USUARIOS DE LAS TECNOLOGIAS DEL LENGUAJE: FRAGMENTACION Y DIFICULTAD DE ACCESO A LAS TECNOLOGIAS NLP PROBLEMAS DE ADAPTACION DEL DOMINIO PROBLEMAS DE BARRERA LINGUISTICA VALIDACION DE RESULTADOS EN DOMINIOS DE MERCADOS REPRESENTATIVOS ANÁLISIS DATOS\PLN\NERC\ADAPTACIÓN DOMINIOS\TÉCNICAS DIRIGIDAS POR DATOS