Descripción del proyecto
EL NUEVO MILENIO IMPULSO LA DIGITALIZACION DE LAS HISTORIAS CLINICAS PARA LA TRANSICION DIGITAL DE LA SALUD EN ESPAÑA. ESTE PROCESO GENERO GRANDES REPOSITORIOS DE DATOS EN HOSPITALES, CENTROS DE SALUD REGIONALES Y BASES DE DATOS NACIONALES. SI BIEN LOS DATOS ESTRUCTURADOS (P.EJ. RESULTADOS DE LABORATORIO, CODIGOS DE DIAGNOSTICO) YA SE HAN EXPLOTADO, LOS DATOS NO ESTRUCTURADOS EN FORMA DE TEXTO LIBRE QUE CONTIENEN INFORMACION UNICA DEL PACIENTE (SINTOMAS, COMORBILIDADES, TRATAMIENTO) SIGUEN SIN UTILIZARSE. ES FUNDAMENTAL INCLUIR DATOS NO ESTRUCTURADOS EN EL ANALISIS MASIVO DE DATOS PARA MEJORAR EL MANEJO DE LOS TRASTORNOS REUMATICOS INMUNOLOGICOS (TRI).UTILIZANDO INFRAESTRUCTURAS INFORMATICAS DE ALTO RENDIMIENTO (HPC), AVANCES EN INTELIGENCIA ARTIFICIAL (IA), EN PARTICULAR DEEP LEARNING Y MODELOS DE LENGUAJE, SE HAN GENERADO MEJORES MOTORES DE BUSQUEDA, DE ANALISIS DE DATOS Y APLICACIONES INFORMATICAS SEMANTICAS Y COGNITIVAS.EL DESARROLLO DE SOLUCIONES LINGUISTICAS EN IA PARA LOS SISTEMAS DE SALUD REQUIERE LA EVALUACION E INTEGRACION DE COMPONENTES DE PROCESAMIENTO DE TEXTO, COMO LA ANOTACION SEMANTICA AUTOMATICA DE CONCEPTOS CLINICOS, Y SU ARMONIZACION CON VOCABULARIOS CONTROLADOS INTEROPERABLES. LA GENERACION DE REPOSITORIOS DE DATOS SINTETICOS QUE PRESERVEN LA PRIVACIDAD TIENEN QUE EVITAR SESGOS RELATIVOS AL SEXO, GENERO Y OTROS DURANTE LA SELECCION Y ANOTACION DE DATOS PARA LA CAPACITACION DE SISTEMAS CLINICOS DE IA Y PLN.LANGTECH4HEALTH IMPLEMENTARA UN SISTEMA DE ANOTACION SEMANTICA AUTOMATICA CON AI AVANZADA Y ENFOQUES DE PNL BASADOS EN DEEP LEARNING Y POTENCIADOS POR COMPUTACION DE ALTO RENDIMIENTO Y DATOS CLINICOS REALES Y SINTETICOS. ESTE SISTEMA RECONOCERA Y EXTRAERA AUTOMATICAMENTE CONCEPTOS DE LAS HISTORIAS CLINICAS, CON ENFASIS EN FENOTIPOS, ENFERMEDADES, SINTOMAS, TRATAMIENTOS, MEDICAMENTOS Y PROCEDIMIENTOS RELACIONADOS CON TRI (OBJETIVO 1).PARA ABORDAR LA INTEROPERABILIDAD SEMANTICA, LA INTEGRACION DE DATOS Y EL ANALISIS, IMPLEMENTAREMOS Y VALIDAREMOS MODULOS DE NORMALIZACION DE CONCEPTOS BASADOS EN LA CLASIFICACION. LOS CONCEPTOS SE ARMONIZARAN CON TERMINOLOGIAS MEDICAS COMO SNOMED CT, ICD-10 Y HPO (OBJETIVO 2).ESTOS MODULOS PLN SE EMPAQUETARAN EN DOCKERS/CONTAINERS, SE IMPLEMENTARAN E INTEGRARAN EN LA PLATAFORMA DEL PROYECTO PARA GARANTIZAR EL PROCESAMIENTO Y LA ANOTACION SEMANTICA A GRAN ESCALA. LA REPRESENTACION DE DATOS ARMONIZADA EN EL DATA LAKE PERMITIRA LA CREACION DE UN KNOWLEDGE GRAPH A PARTIR DE HISTORIAS CLINICAS QUE SE UTILIZARA PARA DESCUBRIR NUEVOS FENOTIPOS NO SOSPECHADOS PREVIAMENTE QUE AYUDEN A UNA MEJOR CLASIFICACION Y, POR LO TANTO, A UN MEJOR MANEJO DE PACIENTES CON TRI (OBJETIVO 3).PARA OBVIAR RESTRICCIONES RELACIONADAS CON LA PRIVACIDAD, LANGTECH4HEALTH CREARA UN CONJUNTO DE DATOS DE REFERENCIA SINTETICOS (HISTORIAS CLINICAS "ARTIFICIALES") EN TRI (OBJETIVO 4). PARA UN CONTROL DE CALIDAD MAS EFICIENTE CON HUMANS IN THE LOOP, ADEMAS DE AUMENTAR LA PRODUCTIVIDAD Y LA EFICIENCIA MIENTRAS SE REDUCE EL COSTO COMPUTACIONAL (IA VERDE), EL DESARROLLO DE MODULOS PLN SE SOMETERA A UN PROCESO ITERATIVO DE ETIQUETADO, ANOTACION, REENTRENAMIENTO Y REFINAMIENTO DE DATOS, REDUCIENDO EL IMPACTO AMBIENTAL DEL PROYECTO LIMITANDO ESTRICTAMENTE EL USO DE HPC(OBJETIVO 5).LA DIFUSION DE RECURSOS DE IMPACTO POSICIONARA AL SISTEMA CIENTIFICO NACIONAL COMO LIDERES EN (1) AI APLICADA A DATOS BIOMEDICOS REALES NO ESTRUCTURADOS SIGUIENDO ESTRATEGIAS ETICAS Y AMBIENTALES;Y (2)PNL DE DATOS BIOMEDICOS EN ESPAÑOL.