Descripción del proyecto
LA BIOLOGIA HA DEVENIDO EN UNA CIENCIA DEPENDIENTE DE LOS DATOS, SOBRE TODO DEBIDO A LOS RAPIDOS AVANCES EN LAS CIENCIAS OMICAS. LA SOBREABUNDANCIA DE DATOS EN EL AREA HACE RELEVANTE EL DESARROLLO DE ESTRATEGIAS DE DESCUBRIMIENTO DE CONOCIMIENTO (DC). LA INTELIGENCIA COMPUTACIONAL (IC) Y, EN PARTICULAR, EL APRENDIZAJE AUTOMATICO (AA) HAN SIDO IDENTIFICADOS COMO ENFOQUES ANALITICOS CLAVE PARA EL DC EN LAS CIENCIAS OMICAS.ESTA PROPUESTA DE PROYECTO SE ENMARCA EN EL CAMPO DE LA FARMACO-PROTEOMICA: LA APLICACION DE LA PROTEOMICA AL DESARROLLO Y EVALUACION DE FARMACOS. ES UN AREA INTENSIVA EN EL USO DE DATOS CON GRAN POTENCIAL PARA ECONOMIAS BASADAS EN EL CONOCIMIENTO. DE ACUERDO AL INFORME 2014 COTEC: TECNOLOGIA E INNOVACION EN ESPAÑA, LA INDUSTRIA FARMACEUTICA ESPAÑOLA ES EL SECTOR CON MAS GASTO EN I+D.LA PROPUESTA PARTE DE LOS RESULTADOS DEL PROYECTO PREVIO "NUEVOS AVANCES EN FARMACOPROTEOMICA USANDO METODOS DE INTELIGENCIA ARTIFICIAL" Y SE CENTRA EN UN TIPO DE PROTEINAS DE MEMBRANA CELULAR: LOS G PROTEIN-COUPLED RECEPTORS (GPCR). MAS DEL 50% DE LOS FARMACOS ACTUALES TIENEN COMO DIANA 4 FAMILIAS DE PROTEINAS, DE LAS CUALES CASI UN 30% SON GPCRS. SU CLASE C, OBJETO DE ANALISIS EN EL PROYECTO, ES DIANA DE FARMACOS PARA EL DOLOR, LA ANSIEDAD Y PATOLOGIAS NEURODEGENERATIVAS.LAS PROPIEDADES FUNCIONALES DE LAS PROTEINAS DEPENDEN DE SU ESTRUCTURA TERCIARIA, QUE INFORMA DE SU CONFIGURACION 3-D. EL DESCUBRIMIENTO DE LA ESTRUCTURA 3-D DE LOS GPCR ES LENTO Y RECIENTE Y MAS AUN PARA LOS DE CLASE C: NO FUE HASTA 2014 QUE SE DESCUBRIERON LAS ESTRUCTURAS TERCIARIAS PARCIALES DE DOS DE ELLOS. POR ELLO, ESTAS PROTEINAS SUELEN SER ESTUDIADAS A PARTIR DE SUS SECUENCIAS PRIMARIAS DE AMINOACIDOS, PUBLICAMENTE DISPONIBLES EN REPOSITORIOS INTERNACIONALES. ESTA FAMILIA DE RECEPTORES SE PUEDE CARACTERIZAR A DIFERENTES NIVELES DE DETALLE, PERO SUS "ETIQUETAS DE SUBTIPO" Y LA ASIGNACION DE SECUENCIAS A SUBTIPOS ESTAN LEJOS DE SER UNIVERSALMENTE ACEPTADAS.EN ESTA PROPUESTA ATACAMOS EL RETO DE ANALIZAR LAS SECUENCIAS PRIMARIAS DE GPCRS DE LA CLASE C USANDO METODOS DE IC. ESTO INCLUYE LA IMPLEMENTACION DE ENFOQUES BASADOS EN EL ESTADO-DEL-ARTE DE DEEP LEARNING (DL), LOS CUALES SOLO HAN EMPEZADO A SER USADOS EN PROTEOMICA EN LOS ULTIMOS AÑOS, ASI COMO DE TECNICAS DE IC BIEN ESTABLECIDAS A MEDIDA DEL ANALISIS DE LOS DATOS SECUENCIALES DEL PROYECTO.ESTO DEJA VARIAS VIAS ABIERTAS POR INVESTIGAR, QUE TRABAJAREMOS DESDE DOS PUNTOS DE VISTA TRANSVERSALES: POR UN LADO, Y DESDE LA PERSPECTIVA DE LA DATA SCIENCE, PROPONEMOS NUEVAS TECNICAS Y DESARROLLAMOS TECNICAS EXISTENTES DE ANALISIS DE DATOS BASADAS EN IC PARA HACER FRENTE A ESTOS PROBLEMAS, INCLUYENDO DL PARA EL ANALISIS DE LAS SECUENCIAS SIMBOLICAS DE GPCR; NUEVOS KERNELS BIOLOGICAMENTE PLAUSIBLES PARA DATOS SECUENCIALES DISCRETOS; Y METODOS DE AA ESTADISTICO Y FUZZY SYSTEMS PARA SUBTIPIFICACION JERARQUICA, SUPERVISADA Y NO SUPERVISADA, DE LOS GPCR.POR OTRO LADO, Y DESDE UNA PERSPECTIVA BIOINFORMATICA, NUESTRO OBJETIVO ES INVESTIGAR PROBLEMAS DE INTERES BIOLOGICO COMO LA BUSQUEDA DE MOTIFS Y BINDING SITES EN LA SECUENCIA; EL ANALISIS DE LOS DIFERENTES ROLES DE LAS PARTES DEL RECEPTOR: EXTRACELULAR/INTRACELULAR/ TRANSMEMBRANA, EN LA CARACTERIZACION DE SUBTIPOS A DIFERENTE NIVEL DE DETALLE; O EL ANALISIS DE LABEL NOISE PARA LA EVALUACION DE CALIDAD DE LAS BASE DE DATOS.PARA TODO ELLO, CONTAMOS CON LA COLABORACION DEL LABORATORY OF MOLECULAR NEUROPHARMACOLOGY AND BIOINFORMATICS DE LA U. AUTONOMA DE BARCELONA. NTELIGENCIA COMPUTACIONAL\GPCR\FÁRMACO-PROTEÓMICA\BIOINFORMÁTICA\SISTEMAS BORROSOS\APRENDIZAJE AUTOMÁTICO