Materiales: [ Cód.: paises123.zip ] [ PDF ]
Este es el último vídeo que analiza un caso de estudio sobre
componentes principales en unos datos económicos de 96 países (el
primero es el [
En este vídeo se visualizan e interpretan dos gráficas:
Los dos componentes principales de mayor variabilidad. Es la gráfica 2D donde más se diferencian unos países de otros (de entre los posibles cambios de variable lineales y ortogonales). Se suele usar para clasificación no supervisada en aplicaciones y, en efecto, parece separar mucho a los países según un componente 1 asociado a un promedio de básicamente todos los datos (excepto ‘mujeres activas’ y ‘bosques’) –indicador económico– y un componente 2 ortogonal al primero, donde la tasa de natalidad, mujeres activas y superficie de bosque son los datos más influyentes en dicho índice.
Los dos componentes de menor desviación típica. Podrían interpretarse como un modelo (una combinación lineal de los datos que es aproximadamente cero en la mayoría de muestras). Los países con mayor resíduo en esas dimensiones serían aquéllos en los que la ”relación entre los datos” es más diferente.
Esta separación entre los primeros componentes (debida a la magnitud
inusual de las entradas –variables latentes en terminología estadística–) versus
los últimos (debida a la diferente relación entre ellas, esto es, que siguen un
modelo diferente) es lo que inspira la división de posibles fallos o errores en
registros de datos (muestras anómalas) en “dentro de modelo” (primer caso) y
“fuera de modelo” (segundo caso). El vídeo introductorio [
Colección completa [VER]:
Anterior Análisis de datos socio-económicos de paises (2): cálculo de componentes principales (svd, pca)
Siguiente Comparacion PCA (statistics toolbox) con SVD ordinario: resultados idénticos