Conocimientos previos¶
Se asume que los alumnos de la asignatura tienen algunos conocimientos previos de biología molecular y de informática.
Biología molecular¶
- Qué son el ADN, ARN y las proteínas.
- Qué es un genoma.
- Transcripción: del ADN al ARN mensajero.
- Splicing: maduración del ARN mensajero.
- Traducción: del ARN mensajero a las proteínas.
1. Secuencias de ADN y bases de datos¶
Secuencias de ADN, tipos de secuencias, métodos de secuenciación, formatos de secuencias. Principales bases de datos de secuencias.
ADN¶
La secuencia del ADN es en realidad la secuencia de nucleótidos en la molécula de ADN. La cadena del ADN tiene un sentido conferido por la estructura química de los nucleótidos. En el carbono 5’ del nucleótido hay un grupo fosfato y en el 3’ un grupo hidroxilo. Por convención las cadenas de nucleótidos siempre se representan en sentido 5’-3’. Estas cadenas tienen un sentido, no es lo mismo leerlas en una dirección que en otra.
from http://es.wikipedia.org/wiki/Nucleótido
El ADN tiene dos cadenas complementarias.
Los nucleótidos de ambas cadenas están apareadas y con complementarias, la adenina (A) de una cadena siempre se enfrenta a una timina (T) en la otra cadena y la guanina (G) a una citosina (C).
5' - ACTCTACA - 3'
3' - TGAGATGA - 5'
Dado que la información de las dos cadenas es redundante por convención sólo se representa una, la 5’-3’. Siempre se escribe una secuencia de ADN hay que escribirla en sentido 5’-3’.
A partir de la secuencia de una cadena, lo que normalmente se representa se puede obtener la cadena complementaria, la reversa y la reversa y complementaria.
* Secuencia de ADN
5' - ACTCTACA - 3'
* Secuencia complementaria.
3' - TGAGATGA - 5'
* Secuencia reversa y complementaria.
5' - AGTAGAGT - 3'
* Cadenas de ADN reversa y complementaria.
Códigos IUPAC para los nucleótidos.
| Codigo | descripción |
|---|---|
| A | Adenina |
| C | Citosina |
| G | Guanina |
| T | Timidina |
| U | Uracilo |
| R | Purina (A o G) |
| Y | Pirimidina (C, T, o U) |
| M | C o A |
| K | T, U, o G |
| W | T, U, o A.. |
| S | C o G |
| B | C, T, U o G (no A) |
| D | A, T, U o G (no C) |
| H | A, T, U o C (no G) |
| V | A, C o G (no T, no U) |
| N | Cualquier base (A, C, G, T o U) |
Proteína¶
Las proteínas están formadas por aminoácidos enlazados en una cadena peptídica. A la secuencia de aminoácidos también se le denomina estructura primaria de las proteínas.
Cuando se escribe su secuencia siempre se comienza por el N terminal y se termina por el C terminal.
Todo lo relativo a la estructura de las proteínas se estudiará en Bioinformática II.
Códigos IUPAC para los aminoácidos.
| 1 letra | 3 letras | descripción |
|---|---|---|
| A | Ala | Alanina |
| R | Arg | Arginina |
| N | Asn | Asparagina |
| D | Asp | Ácido aspártico |
| C | Cys | Cisteina |
| Q | Gln | Glutamina |
| E | Glu | Ácido glutámico |
| G | Gly | Glicina |
| H | His | Histidina |
| I | Ile | Isoleucina |
| L | Leu | Leucina |
| K | Lys | Lisina |
| M | Met | Metionina |
| F | Phe | Fenilalanina |
| P | Pro | Prolina |
| S | Ser | Serina |
| T | Thr | Treonina |
| W | Trp | Tryptófano |
| Y | Tyr | Tirosina |
| V | Val | Valina |
| B | Asx | Asparagina |
| Z | Glx | Glutamina |
| X | Xaa | Cualquier amino ácido |
Transcripción¶
La transcripción es el proceso en el que el ADN genómico es copiado a ARN mensajero.
La transcripción se inicia en el extremo 5’ del gen, en el promotor. Es aquí donde se une la ARN polimerasa.
La cadena del ADN que se copia es la no codificante. El ADN se lee desde 3’ a 5’ y el nuevo ARN se va generando desde 5’ a 3’.
Splicing¶
Al ARN mensajero recién copiado desde el ADN se le cortan los intrones, convirtiéndose en ARN mensajero maduro. En castellano también se denomina al proceso ayuste.
Traducción¶
En la traducción los ribosomas generan las proteínas leyendo el ARN mensajero mediante el código genético.
La traducción procede desde 5’ a 3’ del ARN mensajero y la proteína se genera desde el extremo N-ter al C-ter.
El ARN mensajero se traduce de tres en tres nucleótidos. Cada triplete de nucleótidos es un codón.
from http://es.wikipedia.org/wiki/Archivo:Proteintransl.jpg
- Codones en el ARN mensajero.
Los codones se traducen a aminoácidos utilizando el código genético.
from http://es.wikipedia.org/wiki/Código_genético
El código genético es universal. Sólo hay cambios mínimos en algunos organismos y en las mitocondrias.
El código genético está degenerado, varios codones codifican el mismo aminoácido.
La traducción se inicia siempre en un codón de inicio (ATG), aunque no cualquier codón ATG sirve como inicio.
La traducción termina en cualquiera de los codones que codifican para stop (no aminoácido).
Cada secuencia de ADN tiene 6 posibles pautas/marcos de lectura.
directas
5' ACAAGATGCCATTGTCCCCCGGCC 3'
1 ACA AGA TGC CAT TGT CCC CCG GCC
2 A CAA GAT GCC ATT GTC CCC CGG CC
3 AC AAG ATG CCA TTG TCC CCC GGC C
reversas
5' GGCCGGGGGACAATGGCATCTTGT 3'
4 GGC CGG GGG ACA ATG GCA TCT TGT
5 G GCC GGG GGA CAA TGG CAT CTT GT
6 GG CCG GGG GAC AAT GGC ATC TTG T
Se denomina pauta abierta de lectura a la que va desde el codón e inicio hasta el de stop. Open reading frame (ORF).
Método de secuenciación basado en terminadores¶
El método de secuenciación mediante terminadores marcados representa la forma estándar de conseguir una secuencia de ADN.
Se necesita un ADN molde para secuenciar y una secuencia conocida, cebador, de unos 20 pares de bases en el molde a partir de la cual se va a secuenciar.
from http://openwetware.org/wiki/Image:DNA_sequencing.JPG
Hoy en día se utiliza un método de secuenciación basado en terminadores fluorescentes marcados.
from http://en.wikipedia.org/wiki/Dna_sequencing
Comienzo de un cromatograma real de una reacción de secuenciación.
A partir del cromatograma hay que determinar la secuencia de nucleótidos. Los ficheros de los cromatogramas son binarios y se necesitan programas que los entiendan.
En windows se puede utilizar el chromas, el Sequence Scanner, FintchTV(Mac, PC, Linux) o el trev del paquete de análisis Staden, este último es multiplataforma y se puede utilizar también en Linux.
Prácticamente todos los programas de análisis de secuencia funcionan con ficheros de texto, no con ficheros binarios.
Para extraer la secuencia de nucleótidos a partir del cromatograma se pueden utilizar el chromas y el staden o se puede reanalizar el cromatograma con otros programas alternativos como el phred. Estos programas además de dar la secuencia de texto nos dan otro fichero con una medida de calidad para cada uno de los nucleótidos.
Como se puede observar en la figura del cromatograma no siempre es fácil determinar la secuencia de nucleótidos a partir del cromatograma. La calidad de la secuencia suele ser especialmente mala en el principio y en el final de los cromatogramas.
Las reacciones de secuenciación nos van a dar secuencias con algunos fallos y con algunas bases dudosas. No debemos creer que todas las bases leídas por los secuenciadores automáticos y depositadas en las bases de datos de secuencias son perfectas.
