Análisis de microarrays¶
Vamos a usar tres muestras con tres replicados del proyecto de AtGenxpress. Consisten en las hibridaciones de tres estadios de carpelo de Arabidopsis(preantesis, antesis y tres días tras la antesis) con el microarray ATH1 Genome array de Affymetrix. Las muestras se encuentran en la carpeta arabidopsis del CD o comprimidos en este fichero. Copiar los ficheros comprimidos del directorio ficheros_array y descomprimirlos. En cada uno de los ficheros tenemos los datos brutos (CEL file) en formato de Affymetrix. En el fichero ATH1-121501.CDF tenemos la información del mapa del microarray.
Normalización de arrays mediante RMA¶
Utilizaremos el método RMA y el programa RMAexpress, a pesar de que este programa tiene funciones muy limitadas tiene la ventaja que es muy fácil de manejar. Normalmente el RMA se ejecuta en Bioconductor, que es un conjunto de paquetes que funcionan en el lenguaje de programación de estadística R.
Ejecutar el programa y seguir las instrucciones para obtener el fichero con los datos normalizados. Cargar primero el mapa del array (fichero cdf) y luego las hibridaciones (ficheros cel).
Con la opción Show y visulize raw data podemos ver en este programa los histogramas y box plots antes de normalizar. Verlos y comprobar que tienen una distribución parecida.
Normalizar (RMA mesure) con los valores por defecto (substraer fondo, normalización por quantiles, median polish) y guardar los resultados en formato log2.
Análisis cluster de muestras y genes¶
Una vez normalizados los datos podemos realizar los diferentes análisis para ello vamos a utilizar el paquete de programas Mev. Nuestro formato del fichero de expresión creado antes es texto separado con tabuladores y tenemos que cargarlo de ese modo en el programa.
Una vez cargado realizar los siguientes análisis:
- Realizar un análisis cluster de las muestras utilizando el programa HCL, usar distancia euclídea.
- Repetir el análisis pero utilizando el programa HCL con bootstrap (ST). ¿Se resuelven bien las muestras?, ¿Los triplicados salen juntos?.
- Realizar un análisis PCA. Realizar el análisis únicamente de las muestras. ¿Qué nos dice este análisis?.
- Realizar un análisis cluster de los genes. Puede ser que el programa falle por falta de memoria. Necesita asignarle al java mas de 1100 Mb de memoria. (Editar el fichero tmev.bat y modificar el parámetro xmx). Realizar un análisis cluster de las genes utilizando el programa HCL.¿Qué podemos decir de los clusters?.
- Para simplificar el resultado y eliminar ruido de fondo vamos a seleccionar los genes mas variables:
- Aplicar el filtro de la varianza seleccionando los 3000 genes mas variables. Tomar estos como datos de análisis.Realizar un análisis cluster de las genes utilizando el programa HCL usando correlación de Pearson.
- ¿Qué sucede cuando seleccionamos los 50 genes más variables?. ¿Qué diferencia observáis?. ¿Es fácil hacerse una idea de los clusters?.
- Realizar ahora el Hcl mediante distancia euclídea. ¿Son iguales los clusters?.
- Otro programa para realizar clusters es el K-means. Para ello selecciona 9 clusters.
Búsqueda de genes diferenciales¶
Vamos a buscar genes diferenciales mediante el programa SAM. Cerrar el programa y volver a cargar los datos originales (el programa a veces no puede volver a los datos originales después de hacer una selección más pequeña).Hacer una comparación entre las muestras ATGE_37 y ATGE_45. Seleccionar en el mismo grupo todos los triplicados.
- ¿Qué sucede si variamos delta?
- Seleccionar delta de modo que el número de falsos positivos esperado sea cero. Finalizar el análisis.
- Ver los resultados y exportar la tabla con todos los diferenciales.
- Seleccionar todos los diferenciales como datos a partir de la imagen del array. Hacer un PCA de los genes.¿Qué vemos?.
- Repetir el análisis utilizando un corte fold change 2.
- Realizar un análisis cluster mediante HCL y utilizado el K-means (KMC).
- ¿Podéis ver la lógica de los clusters?.
- ¿Qué sucede al cambiar el número de clusters en el k-means?.
Análisis funcional con términos GO¶
Vamos utilizar el servidor web del Babelomics para realizar un análisis funcional de los genes que hemos identificado. Primero tenemos que sacar los datos del fichero que hemos guardado con los datos de los genes diferenciales. Importarlo al Excel y dejar únicamente las columnas correspondientes a los nombres de los genes y la expresión en las diferentes muestras.
Compararemos contra la lista de estos genes de todo el array usando el fichero fichero con todos los genes del array..
Cargar los datos indicando el tipo de datos (idlist_transcript) y luego utilizarlos en el Fatigo (seleccionar la opción de eliminar los genes de la lista del array que estén el la lista de los diferenciales) y analizar los resultados.