Análisis de expresión diferencial¶
Es uno de los análisis más utilizados, nos permite localizar genes que se expresan diferente entre los experimentos y ver en qué se diferencian entre si las diferentes muestras.
Fold Change¶
Es un método sencillo e intuitivo:
muestra1/muestra2 >2 activación
muestra1/muestra2 <0,5 activación fold change 2
Como se suele trabajar en logaritmos en base dos:
muestra1 - muestra2 >1 activación
muestra1 - muestra2 <-1 activación fold change 2
El problema es que la variación depende de la intensidad. A intensidades pequeñas la variación es mayor. Por ejemplo:
Un cambio 10000/20000 es mas fiable que 1/2.

Cada gen presenta una variación diferente dentro del mismo tipo de muestra. ¿Por qué 2 y no 2,3?. ¿Cuál es el nivel con sentido biológico?
El fold change es un método sencillo y bastante utilizado pero presenta serias limitaciones, vamos a perder sensibilidad en valores altos y el número de falsos positivos será grande en valores pequeños. Se sigue utilizando para seleccionar genes diferenciales cuya expresión sea fácilmente distinguible por otros métodos experimentales.
El t_test¶
El t-test es muy utilizado para buscar genes diferenciales cuando comparamos dos clases. Consiste en comprobar si la media entre dos grupos es igual o diferente. Va a comparar la media y la varianza entre los grupos y calcula un estadístico p que es la probabilidad de que los grupos sean iguales o no.
Tiene en cuenta la variabilidad del gen dentro del grupo y la comparará con la de entre los grupos. Para este tipo de análisis sirven los duplicados o triplicados.

P-value es la probabilidad de encontrar un valor de t mayor o menor si los grupos X e Y fueran los mismos. Si es mayor o menor que cierto umbral la diferencia entre X e Y es significativa. Normalmente se trabaja con p-value 0,05; 0,01.
Anova¶
El análisis de la varianza (Anova) es utilizado cuando queremos comparar entre si varias clases; con dos clases es equivalente al t-test.
Busca un modelo lineal que explique la variabilidad existente y la asigna a varios factores. Analiza las diferentes medias y varianzas de los grupos y las asigna a los diferentes factores del modelo.
Un valor de p pequeño significa que es improbable que las medias de los grupos provengan de la misma distribución y por lo tanto que nuestros grupos son diferentes.
Otros métodos¶
Existen otro estadísticos y métodos para analizar dos a dos o multiclases. También para analizar diferenciales a lo largo de una variable continua, como el tiempo o un gradiente de concentración. Un par de programas y métodos utilizados son :
- SAM (Significance Analysis of Microarrays): Utiliza t-test pero para calcular diferencias entre clases de muestras. Calcula si esa diferencia es significativa utilizando permutaciones de los datos y corrige los datos para evitar diferencias no significativas.
- maSigPro : Es un programa especialmente diseñado para identificar genes diferenciales a lo largo de una variante continua.
El problema de los multitest¶
¿Cuál es la probabilidad de sacar 10 caras tirando 10 veces una moneda?
P= (1/2)^10= 0,00098
¿Cuál es la probabilidad de sacar 10 caras tirando 10 veces pero si tiramos a la vez 1000 monedas?
P= 1-(1-0.5)^1000=0,62
Sea cual sea el estadístico que gastamos tenemos que tener en cuenta este factor, estamos analizando miles de genes a la vez. Un p-value del 0,05 significa que el 5% de los genes no se expresan realmente diferencialmente (falso positivo).
Si pruebas 100 genes tienes 5 falsos positivos; pero si pruebas 20000 genes tendrás 1000.
La mayoría de programas utilizan correctores. Se denominan test de corrección múltiple:
Boniferri, Benjamini-Hochberg, Holm, FDR.
Todos ellos van a tener en cuenta los p-values y el número de ensayos para proporcionarnos un nuevo estadístico ajustado. El objetivo es reducir el número de falsos positivos aunque perdamos genes diferenciales.
Genes diferenciales, Cosas a tener en cuenta:¶
- Tenemos que partir de unas clases claras y bien diferenciadas. Si no es necesario recurrir a análisis de clases continuas.
- Tener en cuenta la variabilidad de los triplicados, va a hacer que perdamos genes diferenciales pero los que obtengamos serán más seguros.
- Tomar el fold change como una estimación o como selección de genes que podamos comprobar experimentalmente. Será difícil comprobar una diferencia del 10% entre dos muestras por mucho que ésta sea significativa.
- Utilizar p-values ajustados, el objetivo no es tener más genes si no aumentar la seguridad del análisis.
- Diferentes estadísticos, diferentes parámetros o variaciones en los datos (normalización) nos proporcionarán un número de genes diferenciales distintos.
- Todos los métodos en realidad proporcionan una estimación de la realidad biológica.