El análisis multivariante trata de encontrar relaciones entre múltiples fuentes de datos, con tres objetivos (combinados):
Clasificar: por ejemplo, en una de las tres etiquetas (“normal”, “fallo 1” o “fallo 2”).
Predecir (regresión): La mejor predicción de estas 3 variables a partir de estas 19 es .
Reducir dimensionalidad:
Para representación o clasificación no supervisada: las muestras de 18 variables están muy correlacionadas, y pueden describirse, con error menor al 5%, a partir de la evolución de sólo 3 componentes principales o variables latentes.
Para regresión: sólo dos combinaciones de las 19 variables parecen influir significativamente en las 3 variables a predecir.
A partir de los años 2000, la gran disponibilidad de datos tanto en la red en general como en una instalación industrial en particular (cientos de sensores recogiendo miles de medidas por hora disponibles en archivos históricos) ha popularizado estas técnicas bajo el paradigma “Big Data”.
Este capítulo analiza dichas técnicas desde una perspectiva de “ingeniería industrial” o “ingeniería de sistemas” de forma introductoria, esto es, sin, quizás, el rigor y formalismo que sería el objetivo de un curso especializado de estadística sobre estas materias (que incorporaría tests sobre suficiencia del número de muestras, intervalos de confianza en las matrices de varianzas-covarianzas estimadas, tests de normalidad, etc.) y también evitando aspectos algorítmicos de eficiencia computacional que son de gran importancia si se desea realizar este tipo de análisis con, por ejemplo, miles de variables, merecedores de ser estudiados en profundidad por los lectores interesados en métodos numéricos o informática.
El análisis de componentes principales (PCA, del término principal component analysis en lengua inglesa) es ampliamente usado en estadística, informática, clasificación, y también en identificación y monitorización de procesos para control (con variaciones para incorporar dinámica). Por ello se considera oportuno dedicar un tiempo a entender los conceptos básicos de esta metodología.
[691: pca0] Análisis
de
Componentes
Principales
para
ingenieros
de
control
(parte
1:
motivación)
**
14:59
Nota: Se recomienda al lector revisar los conceptos básicos de álgebra de matrices (vídeos [ matrix(09:38)], [ matrixG(10:16)]), estadística (Sección B.2), y de valores singulares (Sección A.4, como mínimo los vídeos [ svdOA(11:35)] y [ svd2(17:10)]), para la comprensión correcta de los contenidos de los siguientes videos.
[692: pca1] Análisis
de
Componentes
Principales
(parte
2:
series
de
datos,
teoría)
***
18:59
[693: pca2ml] Análisis
de
componentes
principales
(parte
3:
ejemplo
Matlab
series
de
datos)
***
10:37
[694: paises1] Análisis
de
datos
socio-económicos
de
una
serie
de
paises
(1):
preprocesado
**
08:54
[695: paises2] Análisis
de
datos
socio-económicos
de
paises
(2):
cálculo
de
componentes
principales
(svd,
pca)
***
07:15
[696: paises3] Análisis
de
datos
económicos
de
paises
(3):
representación
gráfica
de
los
primeros
y
últimos
componentes,
interpretación
***
10:58
Nota: El vídeo [ unfoldm(14:55)] también aborda en su primera mitad (hasta el
instante 06:00) el análisis de componentes principales para descubrir que unos datos
4D realmente son un giro de un plano 2D donde está escrita la palabra “HELLO”.
El PCA sólo realiza una “reorientación” de los datos, y no un “aplanamiento” por
lo que está más limitado cuando se trata de usarlo para descubrir posibles
estructuras no lineales subyacentes. *****
[697: pcaissvd] Comparacion
PCA
(statistics
toolbox)
con
SVD
ordinario:
resultados
idénticos
**
03:40
*Link to English version
[698: kpca] Ańalisis
de
componentes
principales:
versión
Kernel
(K-PCA)
*****
[699: pcr] Regresión
por
componentes
principales
(PCR,
Princ.
Component
Regression)
****
17:26
[700: pcrm] Regresión
por
componentes
principales
(PCR):
ejemplo
Matlab
****
14:05
[701: impulidPCR]
Identificación
de
la
respuesta
impulsional
de
un
sistema
discreto:
regularización
principal
component
regression
****
10:54
[702: pls1] Mínimos
cuadrados
parciales
[1]:
Introducción
y
objetivos
de
la
metodología
PLS
***
08:58
[703: plso] Mínimos
cuadrados
parciales
[2]:
Preparación
de
datos,
PLS
con
entrada
ortonormalizada
(pre-blanqueada)
****
12:48
[704: plss] Mínimos
cuadrados
parciales
[3]:
ideas
básicas
SIMPLS,
comparativa
con
O-PLS,
PCR,
discusión,
conclusiones.
*****
10:20
[705: cva1] Análisis
de
variables
canónicas
(canonical
variate
analysis,
CVA):
planteamiento
y
justificación
***
11:50
[706: cva2] Análisis
de
variables
canónicas:
diagonalización
de
la
correlación,
interpretación
del
resultado
****
16:56
[707: cvaplsrg] Regularización
de
CVA
y
O-PLS
*****
[708: plsml1] Componentes
principales
en
regresión
(PLS
y
CVA):
ejemplo
matlab
1
****
15:15
[709: plcvm] Mínimos
cuadrados
parciales
y
variables
canónicas:
caso
de
estudio
(Matlab)
****
21:36
Nota: Hay muchos desarrollos en la literatura reciente sobre “reducción de dimensionalidad” e identificación en “variedades” (manifolds) con curvatura, en vez de los planos o hiperplanos (subespacios) que el PCA lineal puede únicamente manejar. Es una disciplina muy activa en el “machine learning” reciente. Sólo algunos ejemplos e ideas sencillas son presentados aquí.
[710: pcanlx] Análisis
de
componentes
principales:
incorporación
explícita
de
no-linealidades
***
10:09
[711: unfoldm] Desdoblamiento
(unfolding)
de
curvas
mediante
LMI/SDP:
ejemplo
Matlab
*****
14:55
Nota: la matriz de productos escalares introducida en el vídeo [ unfoldm(14:55)] como consecuencia de la identidad es, de hecho, una matriz Kernel, que se discuten en la Sección 20.5. Las matrices Kernel tienen una interpretación “métrica” que este vídeo explota (aunque sin entrar en detalles, por brevedad).
[712: plsdisc] PCA,PLS,
CVA...
conclusiones,
críticas,
limitaciones.
***
11:26
[713: clasifintr1] Ajuste
de
modelos
para
clasificación
(1):
planteamiento
del
problema
(determinista)
*
15:42
*Link to English version
[714: clasifintr2] Ajuste
de
modelos
para
clasificación
(2):
versión
probabilística
del
problema
**
14:57
*Link to English version
[715: clasifNoLS] Ajuste
de
modelos
para
clasificación
(3):
¿valen
mínimos
cuadrados?
***
12:55
*Link to English version