Descripción del proyecto
ADEMAS DEL CODIGO GENETICO, QUE ESPECIFICA LAS PROTEINAS, EXISTEN OTRAS CAPAS DE INFORMACION EN LA LLAMADA ¿MATERIA OSCURA¿ DEL GENOMA (POR EJEMPLO, LOS TRANSCRITOS DE ARN QUE NO CODIFICAN PROTEINAS O LOS ELEMENTOS GENOMICOS QUE REGULAN LA EXPRESION GENICA, ESPACIAL Y TEMPORALMENTE), UN PRINCIPIO GENERAL EN EL QUE SE BASAN MUCHOS DE LOS METODOS PARA DESCUBRIR FUNCION EN EL ADN NO CODIFICADOR (EL LLAMADO GENOMA REGULADOR) ES LA CONSERVACION EVOLUTIVA, SIN EMBARGO, DATOS RECIENTES INDICAN QUE APROXIMADAMENTE LA MITAD DE LOS ELEMENTOS FUNCIONALES ENCONTRADOS EN EL ADN NO-CODIFICADOR DE LAS REGIONES ENCODE NO ESTAN EVOLUTIVAMENTE CONSERVADOS, CUESTIONANDO ASI LA VALIDEZ DEL PRINCIPIO MENCIONADO MAS ARRIBA, Y SUBRAYANDO LA NECESIDAD DE METODOS NO BASADOS EN CONSERVACION EVOLUTIVA, EL OBJETIVO DE NUESTRO PROYECTO ES DESARROLLAR UN PROCEDIMIENTO DE BUSQUEDA DE FUNCION BIOLOGICA EN SECUENCIAS GENOMICAS BASADO EN UN NUEVO PRINCIPIO GENERAL: LAS PALABRAS (K-MERS) RELEVANTES (FUNCIONALES) ESTARAN CLUSTERIZADAS, MIENTRAS QUE LAS PALABRAS NO-RELEVANTES MOSTRARAN UNA DISTRIBUCION ALEATORIA, LA BIEN CONOCIDA CLUSTERIZACION DE MUCHOS ELEMENTOS FUNCIONALES EN EL GENOMA AVALA ESTA HIPOTESIS, NUESTRA APROXIMACION HA DEMOSTRADO SER VALIDA EN LA DETECCION DE PALABRAS CLAVE (CONTENIDO SEMANTICO) EN TEXTOS LITERARIOS, LOS RESULTADOS PRELIMINARES INDICAN QUE EL METODO PUEDE APLICARSE TAMBIEN A TEXTOS SIN COMAS, INCLUIDO EL ADN, CON LO QUE PODRIA VALER PARA DESCUBRIR SENTIDO (FUNCION) EN SECUENCIAS GENOMICAS, LA TECNICA BASICA, EN CUYO DESARROLLO PARTICIPARON DOS MIEMBROS DE NUESTRO EQUIPO, CONSISTE EN COMPILAR LAS DISTANCIAS ENTRE LAS COPIAS CONSECUTIVAS DE UNA PALABRA Y TOMAR LA DESVIACION ESTANDAR DE ESA DISTRIBUCION COMO UNA MEDIDA DE LA CLUSTERIZACION DE LA PALABRA, LAS CARACTERISTICAS DISTINTIVAS DE NUESTRO METODO SON: 1) PUEDE ENCONTRAR ELEMENTOS CON CUALQUIER TIPO DE FUNCION; 2) NO NECESITA ENTRENAMIENTO, CON LO QUE PUEDE ENCONTRAR ELEMENTOS FUNCIONALES TANTO CONOCIDOS COMO DESCONOCIDOS; Y 3) SE PUEDE APLICAR A GENOMAS INDIVIDUALES, CON LO QUE PUEDE ENCONTRAR TANTO ELEMENTOS FILOGENETICAMENTE CONSERVADOS COMO ESPECIE-ESPECIFICOS, OTRO OBJETIVO ES ANALIZAR EL ENRIQUECIMIENTO (SOBREABUNDANCIA ESTADISTICA) EN PALABRAS CLAVE QUE MUESTREN DISTINTAS REGIONES GENOMICAS (EXONES, INTRONES, FLANCOS 5¿ Y 3¿, ELEMENTOS FILOGENETICAMENTE CONSERVADOS COMO PHASTCONS O CNES, TFBSS, MICRORNAS, DOMINIOS COMPOSICIONALES, MODULOS REGULADORES EN CIS, ISOCORAS, DOMINIOS DE REPLICACION, DOMINIOS FUNCIONALES, ETC,), ASI COMO SU REPRESENTACION EN LAS BASES DE DATOS DE MOTIVOS COMO JASPAR, TRANSFAC Y ABS, SE EXPLORARA TAMBIEN LA UTILIDAD EN GENOMICA COMPARADA (GENOMAS CON DIFERENTE CANTIDAD DE SECUENCIAS REPETIDAS, DIFERENTES CROMOSOMAS O GENOMAS RELACIONADOS), UNA APLICACION EN OTRO CAMPO PODRIA SER LA UTILIZACION DE LAS PALABRAS CLAVE PARA LA IDENTIFICACION DE FRAGMENTOS (BINNING) EN METAGENOMICA, BioinformáticaBiología ComputacionalPalabras clave en el ADNclusterización de palabrasADN no-codificadorgenómica funcional