2.1. Búsqueda de secuencias (bases de datos)


Para comenzar, debemos encontrar la información de nuestro gen de interés en la base de datos pública UniProt. Necesitamos recoger la información de la secuencia codificante (CDS) y la secuencia de aminoácidos. Desde esta base de datos accedemos a la ficha de la proteína, que posee el identificador (AC) P19531, encontrándose información muy relevante. Para obtener la información de la secuencia aminoacídica en formato FASTA, pulsamos en la ficha en el botón FASTA (ver 5. ANEXOS).

Una vez encontradas las proteínas, podemos pasar a buscar las correspondientes secuencias de ADN. Para ello, podemos buscar directamente en los portales web de las bases de datos EMBL, GenBank o DDBJ. Aunque en la ficha de UniProt podemos pulsar sobre un identificador de algunas de las bases de datos, en el apartado 'Sequence databases'. Recuperamos la secuencia de ADN en formato FASTA en el indentificador de GenBank (ver 5. ANEXOS), con el identificador M36539.1.

Se realiza, tras encontrar toda la información de nuestro gen amyM, una búsqueda de secuencias homólogas. Para ello tomamos nuestra secuencia de referencia y realizamos una búsqueda de homología utilizando una herramienta de búsqueda de similitud. Para evitar el problema de la degeneración del código genético se emplean las secuencias de proteínas. Existen diferentes herramientas de homología, aunque hemos empleado la herramienta Blast que aparece en el NCBI, más concretamente la BLASTP, que realiza alineamientos locales con secuencias de otros organismos. Para buscar posibles homólogos debemos pegar la secuencia problema en 'Enter Query Sequence', y como parámetros de búsqueda seleccionamos la matriz de intercambio Blosum 62, para buscar secuencias homólogas alejadas filogenéticamente, ya que nos dará alineamientos con una identidad igual o mayor al 62%. Para considerar si dos proteínas son homólogas, tenemos en cuenta que los valores de probabilidad (e-value, en nuestro caso) serán los más fiables para tomar la decisión. De este modo, con un valor de E-value menor a 0,02 se considera que ya existe homología. Muy bien

Por último, de los resultados obtenidos obtenemos la secuencia de aminoácidos y la secuencia de ADN (CDS), en formato multi-FASTA, como se hizo en el apartado anterior (ver 5. ANEXOS).

2.2. ANÁLISIS DE REGIONES 5' NO TRADUCIDAS


En primer lugar obtenemos la secuencia del promotor del gen de referencia (que en este caso no es el gen amyM al carecer de ficha GeneID o Ensembl -en realidad, lo que se analiza en el trabajo es la secuencia de referencia, pero si de ella no se tiene la secuencia 5'-UTR, era mejor haber analizado los CDSs en este apartado-) y de tres homólogos. Para ello, en la ficha de UniProt de las proteínas a analizar, nos dirigimos al enlace GeneID, obteniendo de la secuencia de ADN los 1000 nucleótidos anteriores al codón de inicio de la traducción (promotor).

Para realizar el análisis de las regiones 5’ no traducidas, utilizamos la herramienta ‘Dot Plot’ del programa BioEdit v7.0.4., que nos permite construir matrices de puntos para buscar patrones conservados de secuencia. Para ello le introducimos un archivo en formato multi-FASTA con las secuencias obtenidas anteriormente (ver 5. ANEXOS). En este análisis empleamos como parámetros iniciales una ventana de 15 y un límite de desapareamiento de 5 nucleótidos.

Extraemos de la matriz del organismo más alejado filogenéticamente diagonales pequeñas, que son regiones que podrían estar conservadas. Para comprobar si son secuencias de unión a factores de transcripción, introducimos las secuencias en la base de datos JASPAR, que es una base de datos pública de sitios de unión de factores de transcripción representados como matrices. Realizamos la búsqueda con un 80% de similitud, introduciendo las secuencias en formato FASTA.


Todo muy completo y con sus justificaciones.

2.3. Realización de alineamientos múltiples y filogenias


Partiendo de los ficheros FASTA de aminoácidos y CDS de las proteínas homólogas (ver 5. ANEXOS) se realiza un alineamiento múltiple. Para ello se abre el fichero FASTA correspondiente desde el programa ClustalX2, en el cual ejecutaremos la opción ‘Do Complete Alignment’, para generar dos tipos de ficheros, el del alineamiento múltiple (.aln) y el del árbol filogenético (.dnd). En realidad lo que se usa es el algoritmo Clustal, implementado en el programa ClustalX2.

Una vez que tenemos realizado el alineamiento, lo abrimos en el programa BioEdit, usando el fichero .aln generado, aunque también podemos utilizar el programa ClustalX2. Elegimos la opción del programa BioEdit para facilitar el manejo de alinemientos de secuencia, ya que nos proporciona la posición de todos los nucleótidos, pudiéndose analizar las posiciones más conservadas, que suponemos serán más importantes. Además de estudiar la conservación desde el propio alineamiento, buscamos información posicional en la base de datos UniProt, en el campo ‘Sequence annotation’, ya que empleando esta información automáticamente tendremos las posiciones correspondientes en todas las secuencias.

A partir del árbol filogenético generado en ClustalX por el método Neighbour Joining (fichero .dnd), podemos generar el árbol filogenético en el programa TreeView. Este programa permite definir un grupo externo, siendo éste el más alejado filogenéticamente, y así obtener cladogramas o filogramas.



2.4. Dominios y motivos


Para poder comprobar los resultados del alineamiento realizado con CrustalX y los árboles filogenéticos obtenidos, realizamos una búsqueda de nuestra proteína en la base de datos Pfam.
Esta base datos posee gran cantidad de alineamientos múltiples de secuencias y modelos ocultos de Markov (HMM) (en realidad los HMM son una forma de almacenar la información de un alineamiento múltiple), abarcando un gran número de dominios proteícos de múltiples famlias de proteínas.

Para usar esta base de datos, introducimos el ID de nuestra proteína en el apartado JUMP TO y así obtenemos un esquema de los diferentes dominios que presenta nuestra proteína y una tabla donde aparecen los aminoácidos que abarcan estos dominios.

Si en esta tabla seleccionamos cada uno de los dominios, obtenemos una ficha completa de cada uno de estos dominios con los siguientes apartados:


  • SUMMARY: breve resumen sobre las principales características que presenta el dominio para la familia de proteínas.
  • DOMAIN ORGANISATION: las diferentes organizaciones en las que aparece este dominio, puediendo estar o no acompañado por otros.
  • ALIGNMENTS: alineamiento múltiple usando las secuencias aminoacídicas de toda la familia.
  • HMM LOGO: esquema donde se identifican los aminoácidos mediante una letra y con el que se representa la secuencia completa del dominio, presentando los aminoácidos más conservados en la familia un mayor tamaño.
  • TREES: árbol filogenético realizado con todas las especies pertenecientes a la familia de proteínas.
  • CURATION & MODELS: incluye parámetros de similitud de secuencias.
  • SPECIES: número de veces que aparece el dominio por cada especie de organismo que lo tiene. Podemos hacer alineamientos para las especies que seleccionemos.
  • INTERACTIONS: los dominios que se conocen que interactúan con los nuestros.
  • STRUCTURES: diferentes estructuras para el dominio que podemos encontrar en las diferentes especies que pertenecen a la familia de proteínas.

Usando los alineamientos podemos comparar con los realizamos mediante el programa CrustalX, y comparamos también los árboles filogenéticos realizados usando los 10 organismos homólogos.


También realizamos un análisis de la secuencia en la base de datos Interpro usando InterProScan. Se trata de una base de datos en la que a partir del identificador ID de nuestra proteína, realiza una búsqueda de proteínas, dominios y sitios activos que se encuentren en las proteínas conocidas, proporcionándonos una lista con diferentes esquemas y enlaces.
Otra de las bases de datos que podemos usar para la búsqueda de dominios en nuestra proteína, es PROSITE del servidor de análisis proteómicos ExPASy. En este caso, añadimos la secuencia de aminoácidos y obtenemos una serie de dominios (más bien motivos) que se encuentran en las diferentes proteínas de la base de datos.



2.5 PREDICCIÓN DE ESTRUCTURA


Para la determinación de la estructura 3D de nuestra proteína de referencia, hemos accedido a su ficha en la base de datos Uniprot (P19531). Una vez que estamos en la ficha de nuestra proteína, nos dirigimos al campo “Cross – references” en la que debe aparecer un enlace a la base de datos PDB (base de datos de estructuras tridimensionales de moléculas biológicas) . Si aparece este enlace indica que nuestra proteína posee una estructura conocida. En el caso de que aparecieran varios enlaces debemos seleccionar aquel que presente mayor resolución, en nuestro caso aunque aparecen dos enlaces ambas estructuras tienen la misma resolución y han sido determinadas por el mismo método indicando que son la misma estructura, el hecho de que aparezcan como distintas se debe a que provienen de experimentos distintos. Tras pinchar sobre este enlace, nos dirigimos a la ficha PDB de nuestra proteína(1qho), la cual descargamos con el fin de realizar los estudios de disposición espacial de los aminoácidos del interés (en nuestro trabajo hemos estudiado la disposición de los aminoácidos del sitio activo) mediante el programa RasMol (con las opciones que ofrece este programa podemos seleccionar en distintos colores las cadenas y los aminoácidos, así como la forma en la que deseamos que aparezcan en la imagen –espacio completo, bolitas). En el caso de no haber obtenido ficha PDB podríamos haber realizado una predicción estructural mediante Swiss-Model. Nos dirigimos a la página principal de Swiss-Model y en el menú principal seleccionamos la opción "First Approach mode" que aparece dentro de "Modeling requests". Entonces introducimos la secuencia proteica y esta herramienta realiza la predicción estructural. Tras conocer la estructura, realizamos un estudio de la categoría jerárquica de la proteína de interés mediante la base de datos CATH introduciendo la secuencia de aminoácidos. Esta base de datos nos muestra cuatro niveles clasificatorios de la proteína: clase (C), arquitectura (A), topología (T) y superfamilia homóloga (H).


2.6. ANÁLISIS DE EXPRESIÓN GÉNICA

Buscamos experimentos de expresión génicas en los que se haya estudiado el gen amyM en la base de datos ArrayExpress, en el cual buscamos por el nombre del gen, por sinónimos y por el proceso que desempeña la alfa-amilasa maltogénica.

Muy bien, se nota que habéis revisado la teoría y que estabáis atentas y tomando apuntes en prácticas.

Ir a la página siguiente