Bioinformatica. Grado de Biotecnologia.

Conocimientos previos

«  Introducción   ::   Contents   ::   Bases de datos biológicas  »

Conocimientos previos

Se asume que los alumnos de la asignatura tienen algunos conocimientos previos de biología molecular y de informática.

Biología molecular

  • Qué son el ADN, ARN y las proteínas.
  • Qué es un genoma.
  • Transcripción: del ADN al ARN mensajero.
  • Splicing: maduración del ARN mensajero.
  • Traducción: del ARN mensajero a las proteínas.

1. Secuencias de ADN y bases de datos

Secuencias de ADN, tipos de secuencias, métodos de secuenciación, formatos de secuencias. Principales bases de datos de secuencias.

ADN

La secuencia del ADN es en realidad la secuencia de nucleótidos en la molécula de ADN. La cadena del ADN tiene un sentido conferido por la estructura química de los nucleótidos. En el carbono 5’ del nucleótido hay un grupo fosfato y en el 3’ un grupo hidroxilo. Por convención las cadenas de nucleótidos siempre se representan en sentido 5’-3’. Estas cadenas tienen un sentido, no es lo mismo leerlas en una dirección que en otra.

_images/nucleotido.png

from http://es.wikipedia.org/wiki/Nucleótido

El ADN tiene dos cadenas complementarias.

Los nucleótidos de ambas cadenas están apareadas y con complementarias, la adenina (A) de una cadena siempre se enfrenta a una timina (T) en la otra cadena y la guanina (G) a una citosina (C).

5' - ACTCTACA - 3'

3' - TGAGATGA - 5'

Dado que la información de las dos cadenas es redundante por convención sólo se representa una, la 5’-3’. Siempre se escribe una secuencia de ADN hay que escribirla en sentido 5’-3’.

A partir de la secuencia de una cadena, lo que normalmente se representa se puede obtener la cadena complementaria, la reversa y la reversa y complementaria.

* Secuencia de ADN

5' - ACTCTACA - 3'

* Secuencia complementaria.

3' - TGAGATGA - 5'

* Secuencia reversa y complementaria.

5' - AGTAGAGT - 3'

* Cadenas de ADN reversa y complementaria.

Códigos IUPAC para los nucleótidos.

Codigo descripción
A Adenina
C Citosina
G Guanina
T Timidina
U Uracilo
R Purina (A o G)
Y Pirimidina (C, T, o U)
M C o A
K T, U, o G
W T, U, o A..
S C o G
B C, T, U o G (no A)
D A, T, U o G (no C)
H A, T, U o C (no G)
V A, C o G (no T, no U)
N Cualquier base (A, C, G, T o U)

Proteína

Las proteínas están formadas por aminoácidos enlazados en una cadena peptídica. A la secuencia de aminoácidos también se le denomina estructura primaria de las proteínas.

Cuando se escribe su secuencia siempre se comienza por el N terminal y se termina por el C terminal.

Todo lo relativo a la estructura de las proteínas se estudiará en Bioinformática II.

Códigos IUPAC para los aminoácidos.

1 letra 3 letras descripción
A Ala Alanina
R Arg Arginina
N Asn Asparagina
D Asp Ácido aspártico
C Cys Cisteina
Q Gln Glutamina
E Glu Ácido glutámico
G Gly Glicina
H His Histidina
I Ile Isoleucina
L Leu Leucina
K Lys Lisina
M Met Metionina
F Phe Fenilalanina
P Pro Prolina
S Ser Serina
T Thr Treonina
W Trp Tryptófano
Y Tyr Tirosina
V Val Valina
B Asx Asparagina
Z Glx Glutamina
X Xaa Cualquier amino ácido

Transcripción

La transcripción es el proceso en el que el ADN genómico es copiado a ARN mensajero.

La transcripción se inicia en el extremo 5’ del gen, en el promotor. Es aquí donde se une la ARN polimerasa.

La cadena del ADN que se copia es la no codificante. El ADN se lee desde 3’ a 5’ y el nuevo ARN se va generando desde 5’ a 3’.

Splicing

Al ARN mensajero recién copiado desde el ADN se le cortan los intrones, convirtiéndose en ARN mensajero maduro. En castellano también se denomina al proceso ayuste.

_images/splicing.png

from http://en.wikipedia.org/wiki/Splicing_(genetics)

Traducción

En la traducción los ribosomas generan las proteínas leyendo el ARN mensajero mediante el código genético.

La traducción procede desde 5’ a 3’ del ARN mensajero y la proteína se genera desde el extremo N-ter al C-ter.

El ARN mensajero se traduce de tres en tres nucleótidos. Cada triplete de nucleótidos es un codón.

_images/Proteintransl.jpg

from http://es.wikipedia.org/wiki/Archivo:Proteintransl.jpg

  • Codones en el ARN mensajero.

Los codones se traducen a aminoácidos utilizando el código genético.

_images/GeneticCode21.png

from http://es.wikipedia.org/wiki/Código_genético

El código genético es universal. Sólo hay cambios mínimos en algunos organismos y en las mitocondrias.

El código genético está degenerado, varios codones codifican el mismo aminoácido.

La traducción se inicia siempre en un codón de inicio (ATG), aunque no cualquier codón ATG sirve como inicio.

La traducción termina en cualquiera de los codones que codifican para stop (no aminoácido).

Cada secuencia de ADN tiene 6 posibles pautas/marcos de lectura.

directas

5' ACAAGATGCCATTGTCCCCCGGCC 3'

1  ACA AGA TGC CAT TGT CCC CCG GCC

2  A CAA GAT GCC ATT GTC CCC CGG CC

3  AC AAG ATG CCA TTG TCC CCC GGC C

reversas

5' GGCCGGGGGACAATGGCATCTTGT 3'

4  GGC CGG GGG ACA ATG GCA TCT TGT

5  G GCC GGG GGA CAA TGG CAT CTT GT

6  GG CCG GGG GAC AAT GGC ATC TTG T

Se denomina pauta abierta de lectura a la que va desde el codón e inicio hasta el de stop. Open reading frame (ORF).

Método de secuenciación basado en terminadores

El método de secuenciación mediante terminadores marcados representa la forma estándar de conseguir una secuencia de ADN.

Se necesita un ADN molde para secuenciar y una secuencia conocida, cebador, de unos 20 pares de bases en el molde a partir de la cual se va a secuenciar.

_images/DNA_sequencing.JPG

from http://openwetware.org/wiki/Image:DNA_sequencing.JPG

Hoy en día se utiliza un método de secuenciación basado en terminadores fluorescentes marcados.

_images/sanger_sequencing_read_display.gif

from http://en.wikipedia.org/wiki/Dna_sequencing

Comienzo de un cromatograma real de una reacción de secuenciación.

A partir del cromatograma hay que determinar la secuencia de nucleótidos. Los ficheros de los cromatogramas son binarios y se necesitan programas que los entiendan.

En windows se puede utilizar el chromas, el Sequence Scanner, FintchTV(Mac, PC, Linux) o el trev del paquete de análisis Staden, este último es multiplataforma y se puede utilizar también en Linux.

Prácticamente todos los programas de análisis de secuencia funcionan con ficheros de texto, no con ficheros binarios.

Para extraer la secuencia de nucleótidos a partir del cromatograma se pueden utilizar el chromas y el staden o se puede reanalizar el cromatograma con otros programas alternativos como el phred. Estos programas además de dar la secuencia de texto nos dan otro fichero con una medida de calidad para cada uno de los nucleótidos.

Como se puede observar en la figura del cromatograma no siempre es fácil determinar la secuencia de nucleótidos a partir del cromatograma. La calidad de la secuencia suele ser especialmente mala en el principio y en el final de los cromatogramas.

Las reacciones de secuenciación nos van a dar secuencias con algunos fallos y con algunas bases dudosas. No debemos creer que todas las bases leídas por los secuenciadores automáticos y depositadas en las bases de datos de secuencias son perfectas.

«  Introducción   ::   Contents   ::   Bases de datos biológicas  »