Capítulo 21
Análisis multivariante de datos

El análisis multivariante trata de encontrar relaciones entre múltiples fuentes de datos, con tres objetivos (combinados):

  1. Clasificar: por ejemplo, en una de las tres etiquetas (“normal”, “fallo 1” o “fallo 2”).

  2. Predecir (regresión): La mejor predicción de estas 3 variables {y1,y2,y3} a partir de estas 19 {x1,x2,,x19} es y = M3×19x.

  3. Reducir dimensionalidad:

A partir de los años 2000, la gran disponibilidad de datos tanto en la red en general como en una instalación industrial en particular (cientos de sensores recogiendo miles de medidas por hora disponibles en archivos históricos) ha popularizado estas técnicas bajo el paradigma “Big Data”.

Este capítulo analiza dichas técnicas desde una perspectiva de “ingeniería industrial” o “ingeniería de sistemas” de forma introductoria, esto es, sin, quizás, el rigor y formalismo que sería el objetivo de un curso especializado de estadística sobre estas materias (que incorporaría tests sobre suficiencia del número de muestras, intervalos de confianza en las matrices de varianzas-covarianzas estimadas, tests de normalidad, etc.) y también evitando aspectos algorítmicos de eficiencia computacional que son de gran importancia si se desea realizar este tipo de análisis con, por ejemplo, miles de variables, merecedores de ser estudiados en profundidad por los lectores interesados en métodos numéricos o informática.

21.1 Análisis de componentes principales

El análisis de componentes principales (PCA, del término principal component analysis en lengua inglesa) es ampliamente usado en estadística, informática, clasificación, y también en identificación y monitorización de procesos para control (con variaciones para incorporar dinámica). Por ello se considera oportuno dedicar un tiempo a entender los conceptos básicos de esta metodología.

[691: pca0Análisis de Componentes Principales para ingenieros de control (parte 1: motivación) ** PIC 14:59

Nota: Se recomienda al lector revisar los conceptos básicos de álgebra de matrices (vídeos [ matrix(09:38)], [ matrixG(10:16)]), estadística (Sección B.2), y de valores singulares (Sección A.4, como mínimo los vídeos [ svdOA(11:35)] y [ svd2(17:10)]), para la comprensión correcta de los contenidos de los siguientes videos.

[692: pca1Análisis de Componentes Principales (parte 2: series de datos, teoría) *** PIC 18:59

21.1.1 Casos de estudio

[693: pca2mlAnálisis de componentes principales (parte 3: ejemplo Matlab series de datos) *** PIC 10:37

[694: paises1Análisis de datos socio-económicos de una serie de paises (1): preprocesado ** PIC 08:54

[695: paises2Análisis de datos socio-económicos de paises (2): cálculo de componentes principales (svd, pca) *** PIC 07:15

[696: paises3Análisis de datos económicos de paises (3): representación gráfica de los primeros y últimos componentes, interpretación *** PIC 10:58

Nota: El vídeo [ unfoldm(14:55)] también aborda en su primera mitad (hasta el instante 06:00) el análisis de componentes principales para descubrir que unos datos 4D realmente son un giro de un plano 2D donde está escrita la palabra “HELLO”. El PCA sólo realiza una “reorientación” de los datos, y no un “aplanamiento” por lo que está más limitado cuando se trata de usarlo para descubrir posibles estructuras no lineales subyacentes. ***** PIC

[697: pcaissvdComparacion PCA (statistics toolbox) con SVD ordinario: resultados idénticos ** PIC 03:40 *Link to English version

21.1.2 Componentes principales, versión Kernel (K-PCA)

[698: kpcaAńalisis de componentes principales: versión Kernel (K-PCA) ***** PIC 

21.2 Regresión, correlaciones canónicas

21.2.1 PCR: regresión por componentes principales

[699: pcrRegresión por componentes principales (PCR, Princ. Component Regression) **** PIC 17:26

[700: pcrmRegresión por componentes principales (PCR): ejemplo Matlab **** PIC 14:05

[701: impulidPCRIdentificación de la respuesta impulsional de un sistema discreto: regularización principal component regression **** PIC 10:54

21.2.2 PLS: Mínimos cuadrados parciales

[702: pls1Mínimos cuadrados parciales [1]: Introducción y objetivos de la metodología PLS *** PIC 08:58

[703: plsoMínimos cuadrados parciales [2]: Preparación de datos, PLS con entrada ortonormalizada (pre-blanqueada) **** PIC 12:48

[704: plssMínimos cuadrados parciales [3]: ideas básicas SIMPLS, comparativa con O-PLS, PCR, discusión, conclusiones. ***** PIC 10:20

21.2.3 CVA: análisis de variables canónicas

[705: cva1Análisis de variables canónicas (canonical variate analysis, CVA): planteamiento y justificación *** PIC 11:50

[706: cva2Análisis de variables canónicas: diagonalización de la correlación, interpretación del resultado **** PIC 16:56

[707: cvaplsrgRegularización de CVA y O-PLS ***** PIC 

21.2.4 Ejemplos de código

[708: plsml1Componentes principales en regresión (PLS y CVA): ejemplo matlab 1 **** PIC 15:15

[709: plcvmMínimos cuadrados parciales y variables canónicas: caso de estudio (Matlab) **** PIC 21:36

21.3 Extensión al caso no lineal

Nota: Hay muchos desarrollos en la literatura reciente sobre “reducción de dimensionalidad” e identificación en “variedades” (manifolds) con curvatura, en vez de los planos o hiperplanos (subespacios) que el PCA lineal puede únicamente manejar. Es una disciplina muy activa en el “machine learning” reciente. Sólo algunos ejemplos e ideas sencillas son presentados aquí.

[710: pcanlxAnálisis de componentes principales: incorporación explícita de no-linealidades *** PIC 10:09

[711: unfoldmDesdoblamiento (unfolding) de curvas mediante LMI/SDP: ejemplo Matlab ***** PIC 14:55

Nota: la matriz de productos escalares introducida en el vídeo [ unfoldm(14:55)] como consecuencia de la identidad x y2 = xTx + yTy 2xTy es, de hecho, una matriz Kernel, que se discuten en la Sección 20.5. Las matrices Kernel tienen una interpretación “métrica” que este vídeo explota (aunque sin entrar en detalles, por brevedad).

Discusión final

[712: plsdiscPCA,PLS, CVA... conclusiones, críticas, limitaciones. *** PIC 11:26

21.4 Modelos para clasificación [introducción al problema]

[713: clasifintr1Ajuste de modelos para clasificación (1): planteamiento del problema (determinista) * PIC 15:42 *Link to English version

[714: clasifintr2Ajuste de modelos para clasificación (2): versión probabilística del problema ** PIC 14:57 *Link to English version

[715: clasifNoLSAjuste de modelos para clasificación (3): ¿valen mínimos cuadrados? *** PIC 12:55 *Link to English version