BioMur modulo3 v1.1 documentation

Índice Inicio

Análisis de expresión diferencial

Es uno de los análisis más utilizados, nos permite localizar genes que se expresan diferente entre los experimentos y ver en qué se diferencian entre si las diferentes muestras.

_images/diferenciales.png

Fold Change

Es un método sencillo e intuitivo:

muestra1/muestra2 >2 activación

muestra1/muestra2 <0,5 activación fold change 2

Como se suele trabajar en logaritmos en base dos:

muestra1 - muestra2 >1 activación

muestra1 - muestra2 <-1 activación fold change 2

El problema es que la variación depende de la intensidad. A intensidades pequeñas la variación es mayor. Por ejemplo:

Un cambio 10000/20000 es mas fiable que 1/2.

_images/regresion.png

Cada gen presenta una variación diferente dentro del mismo tipo de muestra. ¿Por qué 2 y no 2,3?. ¿Cuál es el nivel con sentido biológico?

_images/intensidades.png

El fold change es un método sencillo y bastante utilizado pero presenta serias limitaciones, vamos a perder sensibilidad en valores altos y el número de falsos positivos será grande en valores pequeños. Se sigue utilizando para seleccionar genes diferenciales cuya expresión sea fácilmente distinguible por otros métodos experimentales.

El t_test

El t-test es muy utilizado para buscar genes diferenciales cuando comparamos dos clases. Consiste en comprobar si la media entre dos grupos es igual o diferente. Va a comparar la media y la varianza entre los grupos y calcula un estadístico p que es la probabilidad de que los grupos sean iguales o no.

Tiene en cuenta la variabilidad del gen dentro del grupo y la comparará con la de entre los grupos. Para este tipo de análisis sirven los duplicados o triplicados.

_images/ttest.png

P-value es la probabilidad de encontrar un valor de t mayor o menor si los grupos X e Y fueran los mismos. Si es mayor o menor que cierto umbral la diferencia entre X e Y es significativa. Normalmente se trabaja con p-value 0,05; 0,01.

Anova

El análisis de la varianza (Anova) es utilizado cuando queremos comparar entre si varias clases; con dos clases es equivalente al t-test.

Busca un modelo lineal que explique la variabilidad existente y la asigna a varios factores. Analiza las diferentes medias y varianzas de los grupos y las asigna a los diferentes factores del modelo.

Un valor de p pequeño significa que es improbable que las medias de los grupos provengan de la misma distribución y por lo tanto que nuestros grupos son diferentes.

Otros métodos

Existen otro estadísticos y métodos para analizar dos a dos o multiclases. También para analizar diferenciales a lo largo de una variable continua, como el tiempo o un gradiente de concentración. Un par de programas y métodos utilizados son :

  • SAM (Significance Analysis of Microarrays): Utiliza t-test pero para calcular diferencias entre clases de muestras. Calcula si esa diferencia es significativa utilizando permutaciones de los datos y corrige los datos para evitar diferencias no significativas.
  • maSigPro : Es un programa especialmente diseñado para identificar genes diferenciales a lo largo de una variante continua.

El problema de los multitest

¿Cuál es la probabilidad de sacar 10 caras tirando 10 veces una moneda?

P= (1/2)^10= 0,00098

¿Cuál es la probabilidad de sacar 10 caras tirando 10 veces pero si tiramos a la vez 1000 monedas?

P= 1-(1-0.5)^1000=0,62

Sea cual sea el estadístico que gastamos tenemos que tener en cuenta este factor, estamos analizando miles de genes a la vez. Un p-value del 0,05 significa que el 5% de los genes no se expresan realmente diferencialmente (falso positivo).

Si pruebas 100 genes tienes 5 falsos positivos; pero si pruebas 20000 genes tendrás 1000.

La mayoría de programas utilizan correctores. Se denominan test de corrección múltiple:

Boniferri, Benjamini-Hochberg, Holm, FDR.

Todos ellos van a tener en cuenta los p-values y el número de ensayos para proporcionarnos un nuevo estadístico ajustado. El objetivo es reducir el número de falsos positivos aunque perdamos genes diferenciales.

Genes diferenciales, Cosas a tener en cuenta:

  • Tenemos que partir de unas clases claras y bien diferenciadas. Si no es necesario recurrir a análisis de clases continuas.
  • Tener en cuenta la variabilidad de los triplicados, va a hacer que perdamos genes diferenciales pero los que obtengamos serán más seguros.
  • Tomar el fold change como una estimación o como selección de genes que podamos comprobar experimentalmente. Será difícil comprobar una diferencia del 10% entre dos muestras por mucho que ésta sea significativa.
  • Utilizar p-values ajustados, el objetivo no es tener más genes si no aumentar la seguridad del análisis.
  • Diferentes estadísticos, diferentes parámetros o variaciones en los datos (normalización) nos proporcionarán un número de genes diferenciales distintos.
  • Todos los métodos en realidad proporcionan una estimación de la realidad biológica.

Anterior Siguiente

Índice Inicio