Descripción del proyecto
A PESAR DE LOS RECIENTES E IMPORTANTES AVANCES EN EL CAMPO DE LA VISION POR COMPUTADOR, LA TAREA DE DETECTAR OBJETOS Y HUMANOS EN DIFERENTES POSTURAS, JUNTO CON SUS INTERACCIONES EN IMAGENES AUN ESTA LEJOS DE SER RESUELTA. DADA LA IMAGEN (O SECUENCIA DE IMAGENES) DE UNA ACCION, ES EXTREMADAMENTE DIFICIL IMPLEMENTAR UNA GENERACION AUTOMATICA DE ETIQUETAS SEMANTICAS QUE DESCRIBAN LOS OBJETOS QUE PARTICIPAN EN ELLA Y SU RELACION CON LOS OTROS COMPONENTES DE LA ESCENA. LAS PRINCIPALES RAZONES DE ESTA DIFICULTAD SON: (I) LA DEFINICION DE UNA CLASE DE OBJETOS PUEDE SER MUY CONFUSA PARA AQUELLOS OBJETOS QUE TENGAN MUCHA COMPLEJIDAD SEMANTICA; (II) INCLUSO PARA LAS CATEGORIAS DE OBJETOS MAS SIMPLES, LA VARIABILIDAD ES MUY ALTA YA QUE LA APARIENCIA CAMBIA; Y (III) INCLUSO PARA AQUELLOS OBJETOS QUE TIENEN UNA APARIENCIA SIMILAR, HAY QUE HACER FRENTE A LOS PROBLEMAS TRADICIONALES DE LA VISION POR COMPUTADOR, COMO LOS CAMBIOS DE VISTA, EFECTOS DE LA ILUMINACION, OCLUSIONES, ETC. A PESAR DE TODAS ESTAS DIFICULTADES, ESTE PROBLEMA MERECE TODA NUESTRA ATENCION, YA QUE ES CLAVE PARA QUE LOS SISTEMAS INTELIGENTES PUEDAN RAZONAR SOBRE IMAGENES E INTERPRETAR ESCENAS. LOS ENFOQUES MAS RECIENTES EN DETECCION DE CONCEPTOS CONSISTEN EN ESCANEAR UNA IMAGEN PARA ENCONTRAR CANDIDATOS DE OBJETOS O ACCIONES HUMANAS, Y GENERAR UNA PUNTUACION PARA CADA CANDIDATO. POR LO GENERAL, SON ENFOQUES TOP-DOWN: UNA VEZ APRENDIDO UN MODELO PARA CADA CLASE, LA BUSQUEDA SE LLEVA A CABO PARA ESA CLASE EN PARTICULAR Y EN TODA LA IMAGEN. ES FACIL VER QUE EL COSTE COMPUTACIONAL DE ESTOS MODELOS CRECE DE FORMA EXPONENCIAL CON EL NUMERO DE CONCEPTOS A LA PAR QUE CON SU COMPLEJIDAD SEMANTICA. ES POR ELLO QUE LOS ENFOQUES ACTUALES NO PUEDEN ESCALAR BIEN HASTA CIENTOS O MILES DE CONCEPTOS, E INCLUSO SI SE LOGRARA UN APRENDIZAJE INDIVIDUALIZADO, UNA DETECCION INDEPENDIENTE SERIA INVIABLE. ADEMAS, LA TENDENCIA ACTUAL DE AGRUPAR UN NUMERO MUY ELEVADO DE DESCRIPTORES SIMPLES DE CARACTERISTICAS VISUALES TRABAJA BAJO EL SUPUESTO DE QUE HAY MUCHOS, SUFICIENTES EJEMPLOS PARA CADA CATEGORIA: COMO SE TRATA DE LLEGAR A UNA GENERALIZACION ESTADISTICA, ESTE REQUISITO ES OBVIAMENTE UNA LIMITACION CUANDO SE TRATA DE CONCEPTOS SEMANTICAMENTE MUY COMPLICADOS. POR EJEMPLO, LA DETECCION DE UN APRETON DE MANOS ES RELATIVAMENTE FACIL DE ENCONTRAR, PERO DETECTAR UN ACTO DE ACOSO ES MUY DIFICIL. POR TANTO, PROPONEMOS EN ESTE PROYECTO INVESTIGAR COMO SE PUEDE INTEGRAR EL CONOCIMIENTO SEMANTICO DE LOS CONCEPTOS EN LOS MEJORES ALGORITMOS DEL ESTADO DEL ARTE CUYA TECNICA ESTE BASADA EN LA DETECCION DE CARACTERISTICAS VISUALES, ASI COMO INVESTIGAR LA MEJOR FORMA DE ENCONTRAR MULTIPLES CATEGORIAS DE OBJETOS EN IMAGENES PARA LOGRAR SU DETECCION SIMULTANEAMENTE.EL PROYECTO DE INVESTIGACION QUE SE PROPONE AQUI PRETENDE IMPLEMENTAR ESTA TAREA COGNITIVA (I) ASUMIENDO UNA BASE DE CONOCIMIENTO ONTOLOGICO SOBRE INFORMACION VISUAL, ORGANIZADO JERARQUICAMENTE CON MULTIPLES ESTRUCTURAS PARA REPRESENTAR LAS RELACIONES SEMANTICAS COMPLEJAS QUE EXISTEN ENTRE CONCEPTOS; (III) APROVECHANDO Y MEJORANDO EL ESTADO DEL ARTE MAS ACTUAL EN LA DETECCION DE OBJETOS Y ACCIONES HUMANAS; Y (III) INTEGRANDO EL CONOCIMIENTO OBTENIDO A PARTIR DEL ANALISIS VISUAL DE LAS INTERACCIONES A NIVEL DE OBJETOS, SOCIALES, CONCEPTUALES Y DE USUARIO. TODA IMPLEMENTACION SERA PUESTA A DISPOSICION PUBLICA EN CODIGO ABIERTO, INCLUYENDO UNA BASE DE DATOS CON MILES DE INSTANCIAS DE OBJETOS Y DE ACCIONES HUMANAS.