Materiales: [ Cód.: pca2ml.zip ] [ PDF ]
En este video se aborda, con Matlab, el análisis PCA de una serie de 1000 muestras de 4 variables.
Primero se normalizan a desviación típica unitaria y luego se forma la matriz de datos normalizados.
Se hace el SVD de dicha matriz, se calculan los componentes principales, su
desviación típica y se dibujan las trayectorias temporales de dichos
componentes. Obviamente, dada su importancia, existe un comando pca
específico de la Toolbox de Estadística, pero realmente es SVD, ver vídeo
[
Se esboza la posible utilidad de estos componentes:
– aproximación de la serie de cuatro datos en función de un número menor de “variables latentes” eliminando los componentes principales de baja desviación.
– posible uso para monitorización poniendo umbrales sobre los componentes en vez de sobre las salidas originales.
A simple vista parece que las 1000 muestras no son independientes entre sí
en distintos instantes, las gráficas apuntan a la existencia de ciertos
componentes frecuenciales que podrían dar lugar a interpretar estos
datos como una serie temporal de tipo ruido coloreado. Este análisis
dinámico, con estos datos, se aborda en los vídeos [
Obviamente, el análisis de componentes principales es una metodología muy utilizada que tiene su propio comando en Matlab: pca, que realmente ejecuta internamente SVD.
Colección completa [VER]:
Anterior Análisis de Componentes Principales (parte 2: series de datos, teoría)
Siguiente Análisis de datos socio-económicos de una serie de paises (1): preprocesado