Descripción del proyecto
LOS SISTEMAS AUTOMATICOS DE LECTURA INTENTAN REPLICAR LA CAPACIDAD HUMANA PARA EXTRAER Y COMPRENDER LA INFORMACION ESCRITA UTILIZANDO TECNICAS DE VISION POR COMPUTADOR, AUNQUE TRADICIONALMENTE SE HAN DESARROLLADO EN EL AMBITO DEL ANALISIS DE IMAGENES DE DOCUMENTOS, EN LOS ULTIMOS AÑOS SE HAN GENERALIZADO A LA EXTRACCION DE TEXTO EN ESCENAS REALES, EL TRABAJO DE NUESTRO GRUPO DURANTE LOS ULTIMOS AÑOS HA RESALTADO LA EVIDENCIA DE QUE EL TEXTO DE LAS IMAGENES ES UNA FUENTE IMPORTANTE DE INFORMACION QUE DEBE INCORPORARSE EN LA INTERPRETACION DE LA IMAGEN, LOS SISTEMAS DE LECTURA SE HAN INCORPORADO A TAREAS QUE SE ENCUENTRAN EN EL LIMITE ENTRE LA VISION Y EL LENGUAJE COMO, POR EJEMPLO, LA DESCRIPCION AUTOMATICA DE IMAGENES, LA RESPUESTA VISUAL A PREGUNTAS, LA CLASIFICACION Y RECUPERACION DE IMAGENES, EN LA MAYORIA DE ESTOS SISTEMAS, EL ACTO DE "LEER" SE DELEGA EN UNA CAJA NEGRA QUE SE SUPONE QUE PROPORCIONA EL RESULTADO CORRECTO,ESTE PROYECTO TIENE COMO OBJETIVO MEJORAR LOS SISTEMAS DE LECTURA Y FACILITAR SU CORRECTA ADOPCION EN TODOS LOS AMBITOS, EL PARADIGMA IMPULSOR DEL PROYECTO ES VISUAL QUESTION ANSWERING (VQA), YA QUE ES UNA TAREA SEMANTICA Y VERSATIL, QUE NOS PERMITE EXPLORAR LAS DIFERENTES FORMAS EN QUE LA INFORMACION TEXTUAL Y VISUAL SE RELACIONAN ENTRE SI, MIENTRAS QUE DA LUGAR A APLICACIONES UTILES EN LA VIDA REAL, EXPLORAREMOS TRES VARIANTES DE VQA QUE REQUIEREN LEER EL TEXTO DE LA ESCENA, SCENE-TEXT VQA, CON EL OBJETIVO DE INCORPORAR EL TEXTO DE ESCENAS REALES EN EL PROCESO VQA; DOCVQA, CON EL OBJETIVO DE LLEVAR EL PARADIGMA VQA AL ANALISIS DE DOCUMENTOS Y VIDEO TEXT VQA, CON EL OBJETIVO DE REALIZAR VQA EN SECUENCIAS DE VIDEO EN ESCENARIOS URBANOS, DE ESTA MANERA, EL PROYECTO CREARA UNA PASARELA BIDIRECCIONAL ENTRE LOS SISTEMAS DE LECTURA EN DOCUMENTOS Y LAS TAREAS PRINCIPALES DE VISION POR COMPUTADOR, POR UN LADO, EL PROYECTO TIENE COMO OBJETIVO EL ANALISIS DE LAS DIFERENTES RELACIONES ENTRE LA INFORMACION VISUAL Y TEXTUAL EN LA ESCENA, PARALELAMENTE, LA LECTURA SE MODELARA DE FORMA REALISTA, COMO UN PROCESO RUIDOSO E INCOMPLETO, Y EXPLORAREMOS FORMAS DE MEJORAR EL RECONOCIMIENTO MEDIANTE LA RESOLUCION DE TAREAS DE NIVEL SUPERIOR, PARTICULARMENTE EN ESCENARIOS COMPLEJOS COMO EL RECONOCIMIENTO DE TEXTO MULTILINGUE O EN VIDEOS,POR OTRO LADO, LLEVAREMOS LA TAREA DE VQA AL DOMINIO DEL ANALISIS DE DOCUMENTOS, LA INVESTIGACION EN ANALISIS DE DOCUMENTOS TIENDE A CENTRARSE EN TAREAS DE EXTRACCION DE INFORMACION GENERICA (RECONOCIMIENTO DE CARACTERES, EXTRACCION DE TABLAS, ETC,), EN GRAN PARTE DESCONECTADAS DEL PROPOSITO FINAL PARA EL QUE SE UTILIZA LA INFORMACION EXTRAIDA, AL LLEVAR LA TAREA DE VQA AL DOMINIO DEL ANALISIS DE DOCUMENTOS, BUSCAMOS UN NUEVO PUNTO DE VISTA EN EL ANALISIS DE DOCUMENTOS QUE DEBERIA IMPULSAR DINAMICAMENTE LOS ALGORITMOS DE EXTRACCION DE INFORMACION PARA PODER INTERPRETAR LAS IMAGENES DEL DOCUMENTO DE FORMA CONDICIONADA AL OBJETIVO FINAL,PARA CADA UNA DE LAS TRES VARIANTES DE VQA, HEMOS IDENTIFICADO ESCENARIOS DE APLICACION CON UN ALTO VALOR SOCIOECONOMICO, PARA LOS QUE IMPLEMENTAREMOS SOLUCIONES BASADAS EN LOS METODOS INVESTIGADOS: SCENE TEXT VQA PARA RESPONDER PREGUNTAS VISUALES PARA PERSONAS CIEGAS, DOCUMENT VQA PARA PROCESAMIENTO DE DOCUMENTOS ADMINISTRATIVOS Y VIDEO TEXT VQA PARA ASISTENCIA AL CONDUCTOR,EL PROYECTO CUENTA CON EL APOYO DE CUATRO ENTIDADES Y CON CINCO COLABORADORES INTERNACIONALES, LOS DATOS, EL CODIGO GENERADO Y LAS PUBLICACIONES CIENTIFICAS SE HABILITARAN EN ACCESO ABIERTO, VISION POR COMPUTADOR\LENGUAJE\PREGUNTA-RESPUESTA VISUAL\SISTEMAS DE LECTURA