3.1. SECUENCIAS HOMÓLOGAS A amyM DE BACILLUS STEAROTHERMOPHILUS


Con el fin de estudiar la conservación de la proteína de interés a lo largo de la evolución, obtuvimos 10 secuencias homólogas a nuestro gen (Evalue < 0.02) en distintos microorganismos utilizando para ello la secuencia proteica en formato FASTA del gen amyM, en la herramienta Blast de NCBI, con la matriz de puntuación BLOSUM62, obteniendo los siguientes resultados:

tab1p2.JPG


tab2p2.JPG

tab3p2.JPG
Tabla 1, 2 y 3 : Resultados de la búsqueda de secuencias homólogas a amyM

Las secuencias de maiz y humanos tienen una identidad muy baja. Quizás os 'estropeen' mucho el alineamiento.

Como podemos observar en las tablas anteriores, hemos obtenido proteínas homólogas en distintas ramas filogenéticas. Las proteínas homólogas pertenecientes al taxón bacteriano (Bacillus, Thermococcus) presentan porcentajes de identidad mayores que aquellas que pertenecen a organismos más alejados evolutivamente como el maíz, Drosophila o humano. Sin embargo, cabe desatacar que aunque estas proteínas presenten menor % de identidad son proteínas homólogas a nuestra proteína de referencia puesto que todas presentan un Evalue < 0.02.

Los archivos obtenidos con la secuencia CDS y la secuencia de aminoácidos en formato FASTA de cada organismo se encuentran en el apartado de ANEXOS.

3.2. MATRICES DE PUNTOS


3.2.1. BÚSQUEDA DE REGIONES CONSERVADAS MEDIANTE LA REALIZACIÓN DE MATRICES DE PUNTOS

Obtenemos las secuencias promotoras de la familia génica, para analizar las secuencias 5' no traducidas, para así compararla mediante matrices de puntos. Estas secuencias no codificantes ocultan secuencias que pueden tener funciones esenciales para la expresión génica, con lo cual la búsqueda de conservación en estas regiones, en especies separadas filogenéticamente, permite conocer las posibles funciones de las regiones promotoras, con el objetivo final de buscar secuencias reguladoras de la transcripción.

Para el análisis obtuvimos las secuencias promotoras de todas las proteínas homólogas que poseían el CDS en las bases de datos públicas (Drosophila melanogaster, Anabaena variabilis, Thermofilum pendens y Thermococcus onnurineus). Al no tener nuestra proteína de referencia CDS, escogimos la secuencia promotora de Thermofilum pendens como la secuencia de referencia para la realización de las matrices de puntos, al ser este organismo el que posee un menor E-value con nuestra secuencia de referencia (bien elegido). Como se ha dicho con anterioridad las secuencias se comparan en las matrices de puntos, para obtener las diagonales (regiones conservadas) que presentan zonas conservadas entre los organimos. A continuación aparecen las matrices:

matriz_1-onnurensis.JPG
Fig. 1: Matriz de T.pendens vs T. onnurineus

matriz_1-anabaena.JPG
Fig. 2: Matriz de T.pendens vs A. variabilis

matriz_1-drosophila.JPG
Fig. 3: Matriz de T.pendens vs D. melanogaster

Para la realización de las matrices hemos empleado los parámetros de un tamaño de ventana igual a 15 y una identidad mínima de 10 nucleótidos. Se han utilizado estos parámetros porque regiones mayores no nos proporcionarían información debido al elevado nivel de conservación, y regiones menores seguramente nos proporcionarían resultados por puro azar. Este tamaño escogido nos proporciona regiones más restringidas de similitud, que pueden ser pequeños sitios de unión de factores de transcripción. De las matrices las regiones de similitud de mayor interés, serán aquellas que destaquen como diagonales entre el ruido de fondo.

En las matrices se han señalado las diagonales más largas de color azul, y las diagonales más cortas de color rojo; para así poder diferenciarlas con mayor claridad. Al visualizar los resultados podemos comentar como a medida que el organismo de referencia se aleja filogenéticamente del otro organismo enfrentado en la matriz, en la matriz va apareciendo una menor número de diagonales, es decir, se va perdiendo regiones de similitud, y sólo presentan pequeñas zonas conservadas. Así, en la matriz donde se compara T.pendens y T. onnurineus se observan múltiples zonas de similitud, y al contrario ocurre con la matriz donde se compara con D. melanogaster, donde se observan pocas regiones de homología, al ser D. melanogaster el organismo más alejado filogenéticamente de T. pendens.

3.2.2. COMPROBACIÓN DE LAS REGIONES CONSERVADAS ENCONTRADAS

El objetivo final era encontrar secuencias reguladoras que se hayan conservado a lo largo de la evolución. Para ello los resultados obtenidos mediante las matrices de puntos van a ser analizados con la ayuda de la base pública de sitios de unión de factores de transcripción JASPAR. Se van a emplear aquellas diagonales que cumplen la premisa anterior de tener una ventana de 15 nucleótidos y menos de 5 desapareamientos, pero las halladas en la matriz que enfrenta el organismo de referencia con D. melanogaster (se encuentran señaladas en la matriz), al ser este organismo el más alejado filogenéticamente de la especie de referencia, con lo cual los sitios de unión a factores de transcripción serán los más conservados en la evolución, y por tanto los más importantes. La puntuación en los resultados obtenidos debe ser mayor a 8 para que sean significativos. Con todas estas observaciones los resultados son los siguientes:

tablaaa.JPG
Tabla 4: Resumen de los resultados del análisis de las secuencias en JASPAR

Como podemos observar ningún resultado ha mostrado una puntuación mayor a 8, con lo cual no podemos considerar los resultados significativos. Esto puede ser debido a que las secuencias analizadas son muy pequeñas y, por tanto, los resultados pueden ser obtenidos por puro azar (bueno, esto justificaría lo contrario: que se hubieran encontrado muchos resultados significativos). También hay que tener en cuenta que los resultados mostrados son calculados empleando como secuencia de referencia el promotor de la proteína homóloga de Thermofilum pendens, y no la que estamos analizando a lo largo de todo el trabajo, pudiendo ser causa de variaciones en los resultados. Para validar estas secuencias, y reforzar la idea de que sean realmente funcionales, es decir, considerar los resultados significativos, sería necesario hacer un mayor número de comparaciones, y realizar, por ejemplo, alineamientos múltiples con las secuencias de gran cantidad de especies.

3.3 ALINEAMIENTO MÚLTIPLE Y FILOGENÉNIA


3.3.1 ESTUDIO DEL ALINEAMIENTO MÚLTIPLE

Con el fin de comparar la conservación de los aminoácidos más relevantes en las 10 proteínas homólogas obtenidas se realizó un alineamiento múltiple con el programa ClustalX2. Según los datos obtenidos de este primer alineamiento, fue necesario eliminar aquellas secuencias que diferían en tamaño de la proteína de referencia (Anabena, Drosophila, maíz y humano) ya que generaban grandes regiones con gaps en el alineamiento múltiple que interfieren de forma negativa en el análisis de la conservación de los dominios, de los residuos del centro activo y los aminoácidos de unión a metal (datos obtenidos del campo de anotaciones de la secuencia de amyM de la base de datos UniProt, ver la imagen 1) realizando por tanto un segundo alineamiento con las secuencias de aminoácidos obtenidas, habiendo eliminado previamente dichas secuencias. Muy bien

fichauniprot.JPG
Fig. 4: Ficha de la proteína de referencia en Uniprot


Según la base de datos de Uniprot, el dominio de la alpha amilasa maltogénica comprende una región de 686 aminoácidos (desde el aminoácido 34 al 719) con lo cual resulta de especial interés el estudio de este dominio en comparativa con las proteínas homólogas analizadas mediante el alineamiento múltiple. En la imagen adjunta (Fig.4) solo se observa la mitad de la secuencia de la proteína (extremo 5’ hasta el aminoácido 440 aproximadamente) puesto que es la que presenta mayor grado de conservación (las regiones conservadas se encuentran enmarcadas en un recuadro verde) en el alineamiento múltiple, con lo cual determinamos que es ésta mitad del dominio la más determinante para la función de la proteína. Siguiendo los datos mostrados en la imagen 1, los residuos que conforman el sitio activo de la proteína de interés se encuentran en las posiciones 261, 289 y 362. Entonces, analizando el alineamiento múltiple obtenido podemos estudiar la conservación de los aminoácidos en dichas posiciones:
  • La posición 306 del alineamiento múltiple corresponde con la posición 261 de la proteína de referencia. Como observamos por la imagen adjunta, vemos que en todas las proteínas homólogas existe una D, es decir, ácido aspártico, estando este residuo totalmente conservado.
  • La posición 336 del alineamiento múltiple corresponde con la posición 289 de la proteína de referencia. Al igual que en el caso anterior, este residuo esta totalmente conservado en las proteínas homólogas existiendo una E, es decir, un residuo de ácido glutámico en todas las proteínas homólogas analizadas.
  • La posición 410 de alineamiento múltiple corresponde con la posición 362 de la proteína de referencia. Como en la posición 306 del alineamiento, las proteínas homólogas presentan una D.


El ácido glutámico (E) y el ácido aspártico (D) son aminoácidos que poseen las mismas propiedades electrostáticas, es decir, son aminoácidos hidrofílicos y cargados negativamente, de lo que deducimos que es necesario que los residuos que conforman el sitio activo tengan dichas propiedades con lo cual tiene sentido que éstos se conserven en las proteínas homólogas analizadas.

dominio_maltogénico.JPG
dominio_2.JPG
Fig. 5: Resultados del alineamiento múltiple de las secuencias de aminoácidos ( extremo 5' hasta el aminoácido 440) Qué significan las cajas verdes? (es más correcto incluirlo aquí que en el texto). Como nombres, en el formato FASTA, era mejor haber incluido los nombres de organismos, y así poder identificar las secuencias fácilmente en el alineamiento.

Los aas. del centro activo coinciden con las regiones más conservadas del alineamiento.

Otro de los objetivos del alineamiento múltiple, es el estudio de la conservación de los sitios de unión a metal. La alpha amilasa maltogénica presenta diversos sitios de unión a metal, principalmente Ca2+. El ión calcio participa como cofactor en la reacción enzimática por ello resulta de especial relevancia estudiar la conservación de los residuos que participan en la unión de este ión en la proteína. Según la base de datos de Uniprot, existen distintos residuos que participan en la unión del Ca2+ en la proteína de referencia. Entonces, analizando el alineamiento múltiple obtenido podemos estudiar la conservación de los aminoácidos en dichas posiciones:


tablametalbinding.JPG
Tabla 5 : Resumen del estudio de los sitios de unión a metal en el alineamiento múltiple


Dadas los resultados extrapolados del análisis de los residuos de unión a metales, podemos afirmar que existe menos conservación evolutiva en comparación con los aminoácidos del sitio activo ya que en algunos casos el residuo no se conserva o bien varía en función de un tipo u otro de aminoácido, ejemplo de ello es el sitio de unión a metal que se encuentra en la posición 71 del alineamiento. No obstante, en la mayoría de los casos estos aminoácidos presentan una propiedad electrostática común tanto la asparragina (N), el ácido aspártico (D), la histidina (H), el ácido glutámico (E) y como la serina (S) son
aminoácidos hidrofílicos con lo cual afirmamos que esta característica es esencial para la unión del ión calcio en la
proteína tanto en la de referencia como en las proteínas homólogas analizadas.
Muy bien discutido


El alineamiento múltiple de las secuencias de nucleótidos codificantes (CDS) generado mediante el programa ClustalX no aporta información posicional a diferencia del análisis del alineamiento múltiple de las secuencias de aminoácidos. Este hecho, se debe a la degerneración del código genético ya que distintos tripletes pueden codificar para un mismo aminoácido, con lo cual resulta dificil comprobar la distribución de los exones. Otro punto importante del análisis del alineamiento múltiple es el estudio del uso de los tripletes. El uso de los tripletes es específico de especies, pero en ocasiones se conserva en especies cercanas filogeneticamente como es el caso de Bacillus stearothermophilus con Bacillus circulans, Paenibacillus maceranas y Paenibacillus pabuli, sin emabrgo este estudio no hemos podido llevarlo a cabo porque en algunos de estos organismos no poseemos las CDS completa.

3.3.2 ESTUDIO FILOGENÉTICO

Con la herramienta ClustalX también se han generado dos arboles filogenéticos, uno correspondiente a las secuencias proteicas y otro correspondiente con la secuencias de nucleótidos codificantes. Estos arboles filogenéticos han sido modificados utilizando el programa TreeView, es decir, se han enraizado en la especie más alejada evolutivamente de Bacillus stearothermophilus que en nuestro estudio es Anabaena variabilis ya que todas las secuencias estudiadas pertenecen a géneros como Paenibacillus o Thermococcus, cercanos evolutivamente.


Árbol filogenético a partir de la secuencia de aminoácidos

arbol_filogenético.JPG
Fig. 6: Filograma resultante del estudio del anileamiento múltiple de las secuencias de aminoácidos. El filograma muestra la distancia relativa entre las especies estudiadas



Arbol filogenético a partir de la CDS

arbol_CDS.JPG

Fig. 7: Filograma resultante del estudio del alineamiento múltiple de las CDS. El filograma muestra la distancia relativa entre las especies estudiadas.


Como podemos observar en los arboles filogenéticos existen diferencias significativas debidas a la degeneración del código genético con lo cual resulta dificil comparar ambos árboles, no obstante podemos comprobar como se agrupan los microorganismos pertenecientes a los géneros Bacillus /Paenibacillus en ramas distintas a los microorganismos pertenecientes a los géneros Thermococcus/Thermofilum aunque estas ramas están estrechamente relacionadas debido a la cercanía evolutiva.



3.4 BÚSQUEDA DE DOMINIOS Y MOTIVOS



3.4.1. BÚSQUEDA DE FAMILIAS DE DOMINIOS EN PFAM



Usando la base de datos Pfam, vamos a realizar la búsqueda de los dominios de nuestra proteína y podremos llevar a cabo alineamientos múltiples con la familia de proteínas que posean estos dominios.
Partimos de nuestra proteína de referencia y obtenemos un esquema con los diferentes dominios que presenta y una lista en la que aparecen las posiciones en las que se encuentran.

foto_1.jpg
Fig 8: Esquema de los diferentes dominios de P19531 y tabla sobre los aminoácidos que lo componen.

Gracias a esto podemos obtener información detallada sobre cada uno de estos dominios:



3.4.1.1. RESUMEN


  • ALPHA-AMYLASE

La alpha-amylase se clasifica como la familia 13 de las glicosil-hidrolasas. Su estructura es de 8 hebras alfa/beta con forma de barril y que contienen el sitio activo. En su interior poseen dominios de unión al calcio entre la hebra beta 3 y la hélice alfa 3, además contiene una estructura supersecundaria llamada Greek key en el dominio beta que constituye el barril.

FIG 9
FIG 10

foto_2.jpg


  • ALPHA-AMYLASE C
Sólo se trata del dominio C-terminal de la proteína

  • TIG
Se trata de un dominio con forma de inmunoglobulina, que suele encontrarse en la superficie de las células receptoras así como en factores de transcripción intracelulares. El problema es que se conocen un número muy pequeño de dominios con esta estructura.

  • CBM 20
No hay resumen sobre este dominio en Pfam.



3.4.1.2 ORGANIZACIÓN DEL DOMINIO

Podemos ver las diferentes configuraciones en las que pueden aparecer estos dominios en la naturaleza. Pueden aparecer solos o junto con otros dominios.
A continuación sólo se presentan los enlaces a la base de datos para poder visualizar estas organizaiones:



  • ALPHA-AMYLASE
http://pfam.sanger.ac.uk/family?id=Alpha-amylase
Vemos que sólo en 2569 especies aparece este dominio sin ningún otro que lo acompañe, como ocurre para Brevibacterium helvolum.


  • ALPHA-AMYLASE C
http://pfam.sanger.ac.uk/family?id=Alpha-amylase_C
Sólo aparece en 39 especies de forma individual, como en Haemophilus influenzae.


  • TIG
http://pfam.sanger.ac.uk/family?id=TIG
Sólo en 168 especies aparece este dominio en solitario, como ocurre en Ostreococcus tauri.


  • CBM 20
http://pfam.sanger.ac.uk/family?id=CBM_20
Únicamente en 65 especies aparece el dominio CBM 20 sin ningún otro dominio acompañándolo, como en Guillardia theta.




3.4.1.3 ALINEAMIENTOS

  • ALPHA-AMYLASE
Obtenemos el alineamiento múltiple de unas cuentas secuencias de la familia, para así poder comparar los resultados con el alineamiento obtenido anteriormente y comprobar si los aminoácidos o dominios que hemos considerado conservados, se mantienen en toda la familia.

Para presentar los datos usaremos sólo 15 de las secuencias comparadas:

Alineamientos.JPG
FIG 11: Alineamiento para la familia de proteínas (tomando sólo las 15 primeras especies)

Podemos observar recuadradas en verde las diferentes partes del dominio que presentan un alto grado de conservación para las diferentes especies de la familia de proteínas. Ahora podemos comparar estas regiones conservadas con las obtenidas anteriormente para las 10 secuencias homólogas. En la siguiente tabla se muestran la equivalencia de las diferentes partes halladas y algunas características interesantes:


Tabla_6.jpg

Para el caso de la región 1 del primer alineamiento, si nos fijamos en el alineamiento de la familia completa vemos que aparecen conservados sobre todo los aminoácidos D (cargado negativamente) y G (pequeño tamaño), aunque no aparezca una gran zona de homología. Estos aminoácidos se han conservado porque deben cumplir alguna función esencial en la proteína que mantiene la evolución.
Si observamos ahora la región número 5 del primer alineamiento, podemos observar que no se conserva en absoluto si miramos para toda la familia de proteínas. Esto puede ser debido a que el cambio producido por la ausencia de estos aminoácidos no desemboque en una pérdida total de la función. Lo mismo ocurre para la región 6.
Como se ha dicho, no podemos comparar para la región 8 de la familia de proteínas porque no aparece en el primer alineamiento realizado.


  • ALPHA-AMYLASE C
Presentamos el enlace para poder visualizar el alineamiento mediante diferentes formatos:
http://pfam.sanger.ac.uk/family?id=Alpha-amylase_C

No existen grandes regiones conservadas entre las diferentes especies de la familia de proteínas. Por ello sólo presentamos el alineamiento realizado.


  • TIG
Presentamos el enlace para poder visualizar el alineamiento mediante diferentes formatos:
http://pfam.sanger.ac.uk/family?id=TIG

Este alineamiento tampoco presenta regiones conservadas excepto diferentes aminoácidos como la glicina, que aparece conservada en los diferentes miembros debido a que cumple una función esencial en la proteína (por su pequeño tamaño).


  • CBM 20

Presentamos el enlace para poder visualizar el alineamiento mediante diferentes formatos:
http://pfam.sanger.ac.uk/family?id=CBM_20

No aparecen grandes regiones conservadas como en el caso de la alpha-amylase, pero existen diferentes aminoácidos que sí son mantenidos por evolución y que pueden contribuir a mantener la estructura la función de este dominio. Los aminoácidos son valina (V), glicina (G), leucina (L), prolina (P), triptófano (W), arginina (R) y asparagina (N).



3.4.1.4. LOGO

  • ALPHA-AMYLASE
http://pfam.sanger.ac.uk/family?id=Alpha-amylase

Observando este logo podemos deducir que los aminoácidos más conservados (los que aparecen de mayor tamaño) son aquellos con características especiales y que pueden ser necesarios para la función de la proteína:
- GLICINA (G): posee un pequeño tamaño, por lo que suele aparecer en las zonas que presentan giros.
- ÁCIDO ASPÁRTICO (D) Y GLUTÁMICO (E): presenta carga negativa por lo que puede intervenir en la existencia de interaccionen que configuren la estructura de la proteína.
- HISTIDINA (H): su cadena lateral de imidazol puede permitir la unión de metales a la proteína.
- TIROSINA (Y): posee un OH que suele fosforilarse por diferentes tipos de tirosin-quinasas.
- PROLINA (P): aminoácido hidrofóbico por lo que suele aparecer en las zonas internas de las proteínas (o fuera, girando la estructura).
- ASPARAGINA (N): suele aparecer al final de las alfa-hélices y en los giros de las láminas-beta, ya que puede formar enlaces de hidrógenos que determinen estas estructuras.


  • ALPHA-AMYLASE C
http://pfam.sanger.ac.uk/family?id=Alpha-amylase_C

Aparecen muy pocos aminoácidos conservados:

- ASPARAGINA (N): suele aparecer al final de las alfa-hélices y en los giros de las láminas-beta, ya que puede formar enlaces de hidrógenos que determinen estas estructuras.
- ARGININA (R): posee carga positiva, por lo que puede estar involucrado en determinadas interacciones.


  • TIG
http://pfam.sanger.ac.uk/family?id=TIG

Los únicos aminoácidos que aparecen más conservados son:

- GLICINA (G): posee un pequeño tamaño, por lo que suele aparecer en las zonas que presentan giros.
- PROLINA (P): aminoácido hidrofóbico por lo que suele aparecer en las zonas internas de las proteínas.


  • CBM 20
http://pfam.sanger.ac.uk/family?id=CBM_20

Podemos ver conservados los mismos aminoácidos que aparecían para el alineamiento múltiple de la familia de proteínas:
- GLICINA (G): posee un pequeño tamaño, por lo que suele aparecer en las zonas que presentan giros.
- VALINA (V): aminoácido no polar.
- LEUCINA (L): aminoácido no polar.
- PROLINA (P): aminoácido hidrofóbico por lo que suele aparecer en las zonas internas de las proteínas.
- TRIPTÓFANO (W): aminoácido aromático.
- ASPARAGINA (N): suele aparecer al final de las alfa-hélices y en los giros de las láminas-beta, ya que puede formar enlaces de hidrógenos que determinen estas estructuras.
- ARGININA (R): posee carga positiva, por lo que puede estar involucrado en determinadas interacciones.



3.4.1.5. ÁRBOL FILOGENÉTICO

  • ALPHA-AMYLASE
Este árbol es mucho más completo que el obtenido anteriormente, así que resulta muy difícil realizar una comparación, ya que está mucho más ramificado y posee mayor cantidad de especies. Además muchas de las especies usadas para realizar el primer árbol filogenético no aparecen en éste.


Los árboles para los siguientes dominios sólo van a ser presentados, ya que no se se poseen para los 10 individuos homólogos, porque sólo nos interesa comparar el dominio alfa-amilasa que es el que posee la función más importante.

  • ALPHA-AMYLASE C


  • TIG


  • CBM 20




3.4.1.6. ESTRUCTURA
Podemos observar las diferentes estructuras que posee la familia de proteínas. Aquí se presenta los link donde aparecen todas ellas:

  • ALPHA-AMYLASE
http://pfam.sanger.ac.uk/family?id=Alpha-amylase

  • ALPHA-AMYLASE C
http://pfam.sanger.ac.uk/family?id=Alpha-amylase_C

  • TIG
http://pfam.sanger.ac.uk/family?id=TIG

  • CBM 20
http://pfam.sanger.ac.uk/family?id=CBM_20




3.4.2. BÚSQUEDA EN INTERPRO

Ahora utilizamos la base de datos InterPro que integra gran cantidad de bases de datos.
Vamos analizando los diferentes dominios que aparecen tanto para nuestra proteína de referencia como para los homólogos.

Para nuestra proteína de referencia P19531, aparecen los mismos dominios que teníamos usando la base Pfam, excepto el siguiente:


interpro.JPG
Fig 12: Imagen de la base de datos InterPro, donde aparece el dominio que no encontramos en Pfam


Podemos ver que se trata de los 3 sitios activos que vimos en la base de datos Uniprot, que aparecen en esta página como un dominio diferente de la proteína:


sitios_activos.JPG
Fig 13: Imagen de Uniprot en la que vemos de nuevo los sitios activos presenta en nuestra proteína


Si llevamos a cabo esta búsqueda para el resto de proteínas homólogas con las que hicimos el alineamiento en CrustalX, obtenemos siempre los mismos resultados que para la proteína de referencia.




3.4.3. BÚSQUEDA EN PROSITE

Realizamos también la búsqueda de dominios en PROSITE para completar la información que hemos obtenido en las anteriores bases de datos.
En esta ocasión, los resultados sólo nos muestras el dominio CBM 20 de la proteína, del cual teníamos menos información mediante la búsqueda en Pfam.

prosite.JPG

Fig 14: Imagen de la base de dato PROSITE con el dominio CBM 20 que también veíamos en Pfam

Se trato de un módulo de unión de carbohidratos del tipo 20. Suele encontrarse en el extremo C-terminal de los dominios catalíticos de algunas proteínas que degradan el almidón y se ha comprobado que es capaz de unirse a los gránulos de este carbohidrato.
Se trata de 7 láminas beta que forman un barril abierto por las caras. Los aminoácidos que presenta más conservados son el triptófano y la tirosina, ya que son los que participan en la unión al gránulo de almidón. El triptófano si aparecía como aminoácido conservado cuando miramos en la base de datos Pfam, pero no ocurría esto con la tirosina. Esto puede ser porque aunque participen los dos en la misma función, pueda desempeñarla el triptófano de forma individual para algunas especies de la familia. Por ello, no aparece como conservada la tirosina si miramos de forma global la familia completa de proteínas.
Por último, presentamos una lista proporcionada por PROSITE donde aparecen diferentes organismos que contienen este dominio:


  • Mammalian genethonin 1 protein.
  • Mammalian laforin protein, proteína fosfatasa con doble especificidad que puede estar implicada en el control del metabolismo del glucógeno.
  • Human hypothetical protein KIAA1434.
  • Fungi glucoamylase.
  • Bacterial cyclomaltodextrin glucanotransferase.
  • Bacterial α-amylase.
  • Pseudomonas glucan 1,4-α-maltotetraohydrolase precursor.
  • Thermoanaerobacterium amylopullulanase (α-amylase/pullulanase).
  • Bacillus maltogenic α-amylase.



3.5. PREDICCIÓN DE ESTRUCTURA


3.5.1 BÚSQUEDA DE ESTRUCTURAS CONOCIDAS

Para realizar un análisis estructural de nuestra proteína, comprobamos si en el apartado de referencias cruzadas de la ficha de Uniprot (P19531) aparece un enlace a la base de datos PDB.

FICHA_PDB.JPG
Fig. 15: Datos estructurales de la ficha de Uniprot de la proteína referencia (esto es HSSP -estructuras homólogas a estructuras conocidas-). Esta no es la información de vuestra proteína :-|


En la ficha Uniprot de la proteína de nuestro aparecen dos enlaces a esta base de datos pero si observamos la imagen adjunta (Fig. 12) comprobamos como ambos muestran los mismos datos, con lo cual el estudio de uno de ellos (1QHO) nos proporciona la información necesaria para realizar el análisis estructural. Accedemos a la ficha PDB y mediante el program RasMol podemos ver la estructura característica de nuestra proteína:




estructura.JPG
Fig. 16. Imagen 3D de la proteína alfa amilasa maltogénica


La estructura tridimensional de la alfa-amilasa maltogénica de Bacillus stearothermophilus ha sido determinada por cristalografía de rayos X con una resolución de 1,7 A, presentado la molécula las siguientes características:

tabla_de_datos.JPG
Tabla 7: Características de la alpha amilasa maltogénica


Para comprobar si la estructura dada por la base de datos PDB es común a las proteínas homólogas estudiadas anteriormente, buscaremos la ficha PDB de un homólogo a nuestra proteína, en este caso a la ciclodestrina glucanotransferasa de Bacillus circulans (AA31622.1). Entonces, siguiendo la misma metodología que en análisis estrucutural de la proteína de referencia podemos visualizar la conformación 3D de dicha proteína:

estructura_inicial.JPG
Fig. 17. Imagen 3D de la ciclodextrina glucanotransferasa


La estructura tridimensional de la alfa-amilasa maltogénica de Bacillus circulans ha sido determinada por cristalografía de rayos X con una resolución de 1,8 A, presentado la molécula las mostradas en la siguiente tabla:


tabla_datos.JPG
Tabla 8: Características de la ciclodextrina glucanotransferasa


Observando ambas imgánes, comprobamos como la ciclodextrina glucanotransferasa, proteína homóloga a nuestra proteína de referencia, presenta dos dominios que tienen una estructura similar a la alfa amilasa maltogénca, con lo cual podríamos suponer que nuestra proteína de referencia es un prescursor de esta enzima.




3.5.2 ESTUDIO DE REGIONES DE INTERÉS

Uno de los objetivos del análisis estructural es el estudio de dominios o residuos de interés de la proteína. En nuestro caso, analizaremos la disposición de los aminoácidos del sitio activo en la proteína de referencia y en ciclodextrina glucanotransferasa de Bacillus circulans (proteína homóloga a nuestra proteína de interés). Para este estudio, nos servimos de los datos de la ficha Uniprot de amyM para conocer las posiciones de los aminoácidos del sitio activo y teniendo en cuenta el alineamiento múltiple, localizamos los residuos de la ciclodextrina glucanotransfesara de Bacillus stearothermophilus que coinciden con dichas posiciones. Con los datos recopilados, en el programa RasMol marcamos los residuos del sitio activo de ambas proteínas siguiendo el patrón colorimétrico que se especifica en la siguiente tabla:



resumen.JPG
Tabla 9: Patrón colorimétrico de las imágenes obtenidas con RasMol

Obtenemos así dos imágenes en la que en cada una de ellas se destaca la disposición de los aminoácidos del centro activo, lo nos permite realizar un análisis estructural de estos residuos:
PROT_RASMOL.JPG
Fig.18. Estructura 3D con los aminoácidos del sitio activo marcados

Observando la imagen anterior, visualizamos como en ambas proteínas la disposición de los aminoácidos del sitio activo es similar, es decir, dos aminoácidos se encuentran cercanos mientras que el otro permanece alejado. Otro de las características que vemos es como al marcar las cadenas en la proteína de referencia aparece una sola cadena mientras que en la homóloga dos, apareciendo así mismo dos sitios activos. De esta particularidad, podríamos suponer que la proteína homóloga está formada por dos cadenas similares a nuestra porteína de interés, con lo cual la alfa amilasa maltogénica podría ser un precursor de esta proteína homóloga como ya hemos citado anteriormente. Según viene en UniProt, vuestra proteína actúa como un monómero.

3.5.3 PREDICCIÓN DE ESTRUCTURA CON SWISS-MODEL

Aunque nosotros en nuestro estudio estructural hemos encontrado un enlace PDB de la proteína de referencia, también hemos realizado una predicción de estructura con Swiss-model, obteniendo los siguientes resultados:



swiss_model_proteico.JPG


Como vemos la predicción de estructura con Swiss-model nos ha dado la propia proteína ya que la proteína del modelo generado tiene identidad 100 % y Evalue igual a 0.
Debíais haber probado con un homólogo, no con ella misma.

3.5.4. JERÁRQUÍA ESTRUCTURAL

Tras haber realizado un análisis estructural de nuestra proteína, podemos realizar un análisis jerárquico a nivel estructural, es decir, con la herramienta CATH clasificamos nuestra proteína según su estructura teniendo en cuenta la clase (C), la arquitectura (A), la topología (T) y la homología a nivel de la familia proteíca (H). Los resultados se muestran en la siguiente figura:





CATH.JPG

Fig. 19: Resultados del estudio de jerarquía estructural

3.6. ANÁLISIS DE EXPRESIÓN GÉNICA


No se encontraron resultados en la búsqueda de experimentos de expresión génica en los que se haya estudiado al gen amyM.

Muy bien, con algunos detalles.

Ir a la página siguiente