Análisis de datos socio-económicos de paises (2): cálculo de componentes principales (svd, pca)

Antonio Sala, UPV

Dificultad: *** ,       Relevancia: PIC,      Duración: 07:15

Materiales:    [ Cód.: paises123.zip ] [ PDF ]

Resumen:

En este vídeo se calcula el SVD de la matriz de varianzas-covarianzas Σ resultante de preprocesar (logarítmicamente) y estandarizar (media cero, vza. 1) unos datos de una serie de países. Dicho preprocesado se detalla en el vídeo [paises1], y se resume aquí en el primer minuto.

Los valores singulares (diagonal de S en la descomposición Σ = U S V T , divididos por la raíz cuadrada del número de países menos 1 dan lugar a las desviaciones típicas de los componentes principales, que son ΣV . Se analiza el porcentaje de variabilidad explicado por cada componente. Luego, se compara el resultado del svd con el comando pca siendo, obviamente, idéntico; esto ya se había visto en el vídeo [pcaissvd].

La parte final del vídeo analiza el estadístico T2(x) = xT Σ1x siendo x el dato estandarizado (media cero) de cada país. Se analiza su significado en términos de componentes principales, y se representa para la serie de datos de los países: aquéllos con un resíduo T2 alto son los que más lejos en probabilidad están de la media de los datos. Según la distancia sea en los primeros compoenntes principales o en los últimos podría tener una interpretación diferente en las aplicaciones; eso se discute en el vídeo [paises3], continuación de éste.

Colección completa [VER]:

© 2024, A. Sala. Se reservan todos los derechos en materiales cuyo autor pertenezca a UPV.
Para condiciones de uso de material de terceros referenciado, consulte a sus autores.