Descripción del proyecto
EL SUBPROYECTO TRIVIAL SE CENTRARA EN LA CARACTERIZACION DE CONTENIDOS RELACIONADOS CON EL DESORDEN INFORMATIVO. ESTO INCLUYE DESINFORMACION (BULOS, NOTICIAS FALSAS), MIS-INFORMACION (ERRORES, CONTENIDOS ENGAÑOSOS, SESGOS) Y MAL-INFORMACION (FILTRACIONES, ACOSO, DISCURSO DE ODIO). ESTA CARACTERIZACION SE HARA TANTO EN MEDIOS DIGITALES TRADICIONALES COMO EN REDES SOCIALES. EL FENOMENO SE ESTUDIARA PRINCIPALMENTE DESDE LA PERSPECTIVA DEL LENGUAJE NATURAL, AUNQUE LA DETECCION PUEDE REQUERIR ANALISIS DE IMAGENES, PIES DE FOTO, ETC. ESTE TIPO DE CONTENIDOS PUEDEN SER BULOS, SUPLANTACIONES DIGITALES, MEMES DESINFORMATIVOS, FILTRACIONES, DISCURSOS DE ODIO, SESGOS Y POLARIZACION, ETC. EN TRIVIAL NOS CENTRAREMOS EN EXTRAER EL CONOCIMIENTO SEMANTICO DE ALTO NIVEL ENTRE LAS ENTIDADES DIGITALES IMPLICADAS Y SUS RELACIONES, CATEGORIZANDO ESTAS RELACIONES SEGUN SU CONGRUENCIA, COMPATIBILIDAD INFORMATIVA, POLARIDAD, SESGO, VERACIDAD Y CARGA EMOCIONAL.ADEMAS, LOS MODELOS AVANZADOS DE APRENDIZAJE AUTOMATICO QUE SE UTILIZARAN REQUERIRAN UN CONJUNTO DE DATOS DE ENTRENAMIENTO MAS AMPLIO (IA BASADA EN DATOS), Y EN IDIOMAS DISTINTOS DEL INGLES, ENCONTRAR ESOS RECURSOS MASIVOS ES MUCHO MAS DIFICIL. AUNQUE EL PROYECTO PRETENDE ABORDAR EL PROBLEMA DESDE UN PUNTO DE VISTA MULTILINGUE, SE PRETENDE DAR ESPECIAL ENFASIS AL ESPAÑOL, EN TODAS SUS VARIEDADES DIALECTALES (HISPANOAMERICA), CREANDO UN ESPACIO COMUN PARA ESTA LENGUA. DEBIDO AL ELEVADO COSTE DE GENERACION DE RECURSOS EN CUALQUIER LENGUA COMO EL ESPAÑOL, ES BASTANTE HABITUAL ADAPTAR CORPUS YA EXISTENTES EN OTRAS LENGUAS, GENERALMENTE EL INGLES. SIN EMBARGO, EN ESTA TRANSFORMACION, GENERALMENTE AUTOMATICA, SE PRODUCE UN RECURSO SESGADO, LO QUE NO OCURRIRIA SI EL RECURSO SE GENERARA DE FORMA NATIVA, POR EJEMPLO, EN ESPAÑOL. ESTA GENERACION NATIVA TIENE EN CUENTA PECULIARIDADES DE LOS DISTINTOS IDIOMAS QUE SE PIERDEN CON UNA TRADUCCION AUTOMATICA, Y QUE SON ESPECIALMENTE IMPORTANTES CUANDO SE TRABAJA EN LA CARACTERIZACION Y COMPRENSION DE LOS CONTENIDOS DIGITALES. DEBIDO A LAS DIFICULTADES PARA GENERAR GRANDES RECURSOS, UNA VEZ EXTRAIDOS LOS RASGOS, EN TRIVIAL NOS CENTRAREMOS EN GENERAR RECURSOS NATIVOS DE FORMA SEMI-ASISTIDA, PARA OBTENER ESOS GRANDES CONJUNTOS DE DATOS ANOTADOS. A PARTIR DE AHI APLICAREMOS TECNICAS DE AUTO MACHINE LEARNING EN LA IDENTIFICACION DE PROCESOS NLP OPTIMIZADOS. ESTAS TECNICAS SE APLICARAN EN LA GENERACION DE PROTOTIPOS Y PRUEBAS DE CONCEPTO PARA EVALUAR LAS HIPOTESIS DE PARTIDA DEL PROYECTO. PARALELAMENTE, EN EL SUBPROYECTO TAMBIEN NOS CENTRAREMOS EN LA PREDICCION DE LA MUTACION Y VIRALIDAD DE LOS CONTENIDOS DIGITALES, EXTRAYENDO PATRONES DE COMPORTAMIENTO EN CONTENIDOS ALTAMENTE VIRALIZADOS, ESTUDIANDO LAS RELACIONES EMOCIONALES QUE LLEVAN A ESTA VIRALIZACION, ASI COMO PERMITIENDO LA TRAZABILIDAD DE LOS CONCEPTOS. EL OBJETIVO ES PREDECIR LA RED DE INFLUENCIAS ENTRE LAS ENTIDADES DIGITALES, SUS RELACIONES Y LOS CONTENIDOS DIGITALES, QUE DETERMINA EL "COMPORTAMIENTO VIRAL" Y LAS MUTACIONES DE DICHOS CONTENIDOS. SE APLICARAN DIVERSAS TEORIAS, MODELOS Y TECNICAS PARA PODER DETERMINAR LOS PATRONES DE COMPORTAMIENTO QUE LLEVAN A LA INFORMACION A CONVERTIRSE EN VIRAL. ES AQUI DONDE LA INFORMACION DE LA ESTRUCTURA DE LA RED (RED DE ENTIDADES DONDE SE PROPAGA EL CONTENIDO) Y LA INFORMACION TEMPORAL SON DE MAYOR INTERES. ADEMAS DEL AMBITO PERIODISTICO, ESTE SUBPROYECTO SE CENTRARA EN LOS AMBITOS DE LA ADMINISTRACION Y EL TURISMO, ENTRE OTROS. ROCESAMIENTO DEL LENGUAJE NATURAL\APRENDIZAJE AUTOMATICO\MODELADO DEL LENGUAJE\TECNOLOGIAS DEL LENGUAJE HUMANO\ANALISIS DE SENTIMIENTOS Y EMOCIONES\PLN