Capítulo 24
Detección de anomalías (ideas preliminares)

El problema de la “detección” de fallos (y de su “aislamiento”, no sólo detectar que algo no es normal, sino saber qué ha ocurrido) está muy relacionado con la identificación: básicamente se produce un “fallo” cuando el modelo que genera los datos “cambia”. El caso más sencillo sería un modelo con parámetros únicamente de “media” y “varianza”, y se debería determinar si han “cambiado”. Este capítulo aborda, de forma introductoria, algunos de los conceptos relacionados con estas ideas. El campo de la detección de fallos en sistemas dinámicos es amplio, siendo el objetivo de este capítulo únicamente el mostrar la aplicación de determinadas ideas básicas de estadística, sin mayores pretensiones: este campo no es mi especialidad ni docente ni investigadora.

Nota: El análisis estadístico riguroso con pocas muestras requiere consideraciones adicionales, como preprocesado de datos (eliminiación de outliers), pruebas de normalidad (y transformaciones de los datos si no hay normalidad), pruebas de independencia, homocedasticidad (varianza condicional constante), descartar relaciones no lineales, pruebas de correlación de error, etc. Obviamente, todo ello es objetivo de cursos avanzados de Estadística y Análisis Multivariante y el objetivo de este capítulo es, simplemente, esbozar las ideas principales.

24.1 Test estadístico de hipótesis (media y varianza, monovariable, χ2, t-Student)

[748: thgeTest estadístico de hipótesis: generalidades y planteamiento *** PIC 13:45

Nota: Los siguientes vídeos de la sección utilizan conceptos de intervalos de confianza de distribución normal o su cuadrado. Es recomendable que el lector tenga asentados los conceptos sobre estos intervalos/elipsoides de los vídeos [ intc(12:09)] y [ elipc(08:22)].

[749: thmdTest estadístico de hipótesis sobre la media *** PIC 15:43

[750: thmdmlTest de hipótesis sobre la media: ejemplo Matlab *** PIC 10:32

[751: thvarTest estadístico de hipótesis sobre la varianza **** PIC 10:58

[752: thmdkalEjemplo filtro Kalman: test hipótesis sobre media **** PIC 15:25

Nota: El concepto de filtro de Kalman es, en efecto, muy general y admite no sólo su uso como “observador” en sistemas dinámicos o como “estimador de la media” en contraste de hipótesis (incluso para el caso multivariable discutido en el vídeo [ thmmv(12:24)]), sino también en “identificación por mínimos cuadrados”. En efecto, la identificación de parámetros “constantes” de un modelo y = xT𝜃 + v con x e y conocidos (siendo v un ruido de medida) es, por ejemplo, una generalización del problema de estimación de media en el vídeo [ thmdkal(15:25)]: el estimador óptimo del proceso 𝜃k+1 = 𝜃k (parámetros constantes, esta vez entendido como una ecuación de estado), y = xT𝜃 (entendido como una ecuación de salida). Los vídeos [ mcr1(11:18)] y [ mcr2(10:51)] discuten dicha relación (mínimos cuadrados recursivos).

24.2 Test estadístico de hipótesis: caso multivariable χ2, T2

Se recomienda al lector revisar el concepto de elipsoide de confianza del vídeo [ elipc(08:22)] para entender mejor el umbral de decisión propuesto.

[753: thmmvTest de hipótesis sobre media: distribución normal multivariable **** PIC 12:24

[754: thmc2mTest de hipótesis sobre media (varianza conocida, chi-cuadrado): ejemplo Matlab **** PIC 07:37

Nota: Del mismo modo que el caso de varianza conocida monovariable se podía hacer equivalente a un filtro de Kalman, según discutido en el vídeo [ thmdkal(15:25)], eso sigue siendo válido en el caso multivariable. Ello, por tanto, permite generalizar el test de hipótesis considerándolo como un “observador” que permitiría modelos no estacionarios con media “variante en el tiempo” mk+1 = mk + wk, yk = mk + vk, siendo m un vector. Obviamente, podría generalizarse más. La idea básica es que en vez de tener un elipsoide de confianza centrado en el valor nominal μ, se tendría centrado en el valor estimado m^k, pero los niveles también se calcularían con la distribución χ2. Por brevedad, los detalles se dejan al lector, dado que el desarrollo es paralelo al del vídeo [ thmdkal(15:25)]. PIC

[755: thmt2mTest multivariable de hipótesis sobre media (varianza desconocida, test T2): ejemplo Matlab ***** PIC 06:15

24.3 Test estadísticos de detección de anomalías sobre resultados de PCA

[756: fdpca1Umbrales de detección de cambios tras análisis PCA (1): matriz de VC completa **** PIC 11:33

[757: fdpcaqt1Umbrales de detección de cambios tras análisis PCA (2): residuos dentro/fuera de modelo (motivación) *** PIC 05:57

[758: fdpcaqt2Umbrales de detección de cambios tras PCA (3): residuos dentro/fuera de modelo (detalle cálculo) ***** PIC 17:55

Otros desarrollos

La detección de fallos es un campo activo de investigación y desarrollo, que combina conceptos de estadística, control, etc. No obstante, no dispongo de más materiales realizados por mí sobre el tema dado que, como ya se ha comentado, no es mi línea principal de trabajo.