FISICA ESTADISTICA EN TEXTOS Y SECUENCIAS DE ADN: IDENTIFICACION DE PALABRAS REL...
FISICA ESTADISTICA EN TEXTOS Y SECUENCIAS DE ADN: IDENTIFICACION DE PALABRAS RELEVANTES, CORRELACIONES DE LARGO ALCANCE E INTERACCIONES MEDIANTE REDES COMPLEJAS.
EL GENOMA HUMANO CONTIENE ALREDEDOR DE 20000 GENES, QUE CUBREN SOLAMENTE EL 2% DEL GENOMA. ESA PEQUEÑA CANTIDAD DE GENES NO ES CAPAZ DE DAR CUENTA DE LA COMPLEJIDAD DE UN SER HUMANO Y DE LAS NUMEROSISMAS FUNCIONES QUE REALIZAUN OR...
ver más
UNIVERSIDAD DE MÁLAGA
No se ha especificado una descripción o un objeto social para esta compañía.
Total investigadores1965
Fecha límite participación
Sin fecha límite de participación.
Financiación
concedida
El organismo AGENCIA ESTATAL DE INVESTIGACIÓN notifico la concesión del proyecto
el día 2012-01-01
No tenemos la información de la convocatoria
0%
100%
Información adicional privada
No hay información privada compartida para este proyecto. Habla con el coordinador.
¿Tienes un proyecto y buscas un partner? Gracias a nuestro motor inteligente podemos recomendarte los mejores socios y ponerte en contacto con ellos. Te lo explicamos en este video
Proyectos interesantes
RYC-2016-20621
Phylogenomic approaches in the sequencing era
309K€
Cerrado
PRE2019-091276
Computational-Systems Biology and Genomics Program (CsBGP)
98K€
Cerrado
MoDATS
Model based Data Analysis of Transcription and Splicing
195K€
Cerrado
IJC2019-041346-I
Computational and statistical methods for the analysis of Si...
Cerrado
INTERCROSSING
Innotive Training Environment for Researchers Combining the...
4M€
Cerrado
UNIVERSIDAD DE MÁLAGA
No se ha especificado una descripción o un objeto social para esta compañía.
Total investigadores1965
Presupuesto del proyecto
33K€
Fecha límite de participación
Sin fecha límite de participación.
Descripción del proyecto
EL GENOMA HUMANO CONTIENE ALREDEDOR DE 20000 GENES, QUE CUBREN SOLAMENTE EL 2% DEL GENOMA. ESA PEQUEÑA CANTIDAD DE GENES NO ES CAPAZ DE DAR CUENTA DE LA COMPLEJIDAD DE UN SER HUMANO Y DE LAS NUMEROSISMAS FUNCIONES QUE REALIZAUN ORGANISMO. POR TANTO, LA INFORMACION ADICIONAL QUE CONTROLA LA EXPRESION DE LOS GENES, Y LA RELACION ENTRE ELLOS DEBE ESTAR ESCRITA EN EL 98% RESTANTE DEL GENOMA. PERO NO SE CONOCE COMO ESTA ESCRITA ESA INFORMACION: QUE CODIGO SE UTILIZA, QUE VOCABULARIO SE USA Y EL SIGNIFICADO DEL MISMO. NOSOTROS PROPONEMOS ABORDAR ESTE PROBLEMA EN TRES FASES:1) DETECCION DEL 'VOCABULARIO' DEL GENOMA USANDO TECNICAS LINGUISTICAS DESARROLLADAS POR NUESTRO GRUPO. HEMOS DEMOSTRADO QUE LAS PALABRAS RELEVANTES EN UN TEXTO ESTAN CLUSTERIZADAS A LO LARGO DEL MISMO, Y QUE CON UNA MEDIDA ADECUADA DEL CLUSTERING DE LA PALABRA, SE PUEDEN EXTRAERLAS PALABRAS RELEVANTES DE UN TEXTO SIN INFORMACION ADICIONAL EXTERNA. ASI MISMO, MUY RECIENTEMENTE HEMOS DEMOSTRADO QUE EN EL ADN LASCADENAS DE $K$-MEROS CON MAYOR CLUSTERING APARECEN PREFERENTEMENTE EN REGIONES CON FUNCION BIOLOGICA Y NO LO HACEN FUERA DE ELLAS. POR LO TANTO, USANDO DE NUEVO LA ASOCIACION ENTRE CLUSTERING Y RELEVANCIA PODEMOS ENCONTRAR LAS PALABRAS RELEVANTES (EL 'VOCABULARIO') DE ESTE 98% DEL GENOMA.2) DISEÑO DE MODELOS CON CORRELACIONESDE LARGO ALCANCE QUE SIMULEN LA APARICION DE PALABRAS CLAVE EN UN TEXTO O EN UNA SECUENCIA DE ADN. EL CLUSTERING DE LAS PALABRAS RELEVANTES SE DEBE A FUERTES INTERACCIONES ENTRE ELLAS, QUE SE MANIFIESTAN COMO CORRELACIONES DE LARGOALCANCE EN LEY DE POTENCIAS QUE ALCANZAN ESCALAS ESPACIALES ENORMES TANTO EN TEXTOS COMO ADN. DE ESTA FORMA, PRETENDEMOS ENTENDER LOSMECANISMOS QUE CONTROLAN LA APARICION DE INFORMACION IMPORTANTE TANTO EN TEXTOS COMO EN ADN.3) APLICACION DE LAS HERRAMIENTAS DE LA TEORIA DE REDES COMPLEJAS A LAS REDES DERIVADAS DE PALABRAS CLAVE. EN TEXTOS, LOS NODOS DE LA REDSERAN LAS PALABRAS RELEVANTES Y LOS LINKS SE CREARAN POR PROXIMIDAD EN EL TEXTO. LAS REDES RESULTANTES NOS CARACTERIZARAN COMO SE ASOCIAN LOS CONCEPTOSIMPORTANTES EN UN TEXTO. EN EL ADN, PROPONEMOS DOS TIPOS DE REDES: A) LOS NODOS CORRESPONDEN A LAS PALABRAS DEL VOCABULARIO Y LOS LINKS SE ESTABLECEN POR PROXIMIDAD EN LA SECUENCIA. LA RED RESULTANTE NOS DARA QUE PALABRAS SE USAN CONJUNTAMENTE, SI EXISTEN PALABRAS ``HUBS', ETC, ES DECIR, LAS 'REGLAS DE ESCRITURA' O SINTACTICAS EN EL GENOMA. B) LOS NODOS SON LOS GENES, Y LOS LINKS SE CREAN ENTRE ELLOS SI TIENEN EN SUS CERCANIAS PALABRAS COMUNES DEL VOCABULARIO. ESTAS REDES NOS DARAN EL CONTENIDO 'SEMANTICO' O SIGNIFICADO DE LAS PALABRAS, ES DECIR, SU ASOCIACION A LAS FUNCIONES DE LOS GENES.