Apartado 6 - Métodos de Aprendizaje Supervisado y No Supervisado

🎯 Resumen Ejecutivo

Los métodos de aprendizaje automático se clasifican fundamentalmente en supervisado y no supervisado según la naturaleza de los datos de entrenamiento. El aprendizaje supervisado aprende mapeos de entrada a salida utilizando datos etiquetados, aplicable en clasificación (categorizar datos en clases discretas) y regresión (predecir valores continuos). Algoritmos clásicos incluyen regresión lineal y logística, árboles de decisión, Support Vector Machines (SVM), y métodos de ensamble como Random Forests y Gradient Boosting que combinan múltiples modelos para mejorar rendimiento. Las redes neuronales supervidas aprenden representaciones jerárquicas mediante retropropagación. El aprendizaje no supervisado descubre patrones en datos sin etiquetas, incluyendo clustering (agrupar datos similares mediante K-Means, clustering jerárquico, DBSCAN) y reducción de dimensionalidad (comprimir información preservando estructura mediante PCA, t-SNE, autoencoders). Los métodos de aprendizaje por refuerzo permiten agentes aprender mediante interacción con ambiente, recibiendo recompensas. Variantes híbridas incluyen aprendizaje semi-supervisado (combinando datos etiquetados y no etiquetados) y auto-supervisado (generando etiquetas automáticamente de datos). La selección del método depende de disponibilidad de datos etiquetados, naturaleza del problema, requisitos de interpretabilidad y restricciones computacionales.

📖 Contenido Principal

📊 Aprendizaje Supervisado: Fundamentos

El aprendizaje supervisado constituye el paradigma más común en machine learning, donde modelos aprenden de ejemplos etiquetados para hacer predicciones sobre datos nuevos. En clasificación, el objetivo es asignar instancias a categorías discretas. La regresión logística, a pesar de su nombre, es algoritmo de clasificación que modela probabilidad de pertenencia a clase usando función logística. Los árboles de decisión construyen modelos mediante particiones recursivas del espacio de características basándose en reglas de decisión, generando estructuras interpretables. Las Support Vector Machines (SVM) buscan hiperplano óptimo que maximiza margen entre clases, utilizando kernel trick para manejar separaciones no lineales en espacios de alta dimensión. Las redes neuronales feedforward con capas ocultas aprenden representaciones jerárquicas mediante retropropagación, ajustando pesos para minimizar error entre predicciones y etiquetas verdaderas. El entrenamiento requiere función de pérdida (cross-entropy para clasificación, MSE para regresión) y optimizador (SGD, Adam) para actualizar parámetros iterativamente.

🌳 Métodos de Ensamble

Los métodos de ensamble combinan múltiples modelos débiles para construir predictor robusto y preciso. Random Forest entrena múltiples árboles de decisión en submuestras bootstrap de datos con submuestreo aleatorio de características, promediando predicciones para reducir varianza. Es robusto ante overfitting y maneja bien características correlacionadas. Gradient Boosting construye modelos aditivos secuencialmente, donde cada nuevo modelo corrige errores de ensemble anterior, minimizando función de pérdida mediante descenso de gradiente. XGBoost implementa gradient boosting con optimizaciones computacionales avanzadas, regularización para prevenir overfitting y manejo eficiente de valores faltantes, dominando competiciones de ML. LightGBM usa histogram-based learning para velocidad y eficiencia memoria, crecimiento de árboles leaf-wise en lugar de level-wise para mayor precisión, y GOSS (Gradient-based One-Side Sampling) que enfoca en instancias con gradientes grandes. AdaBoost asigna pesos a instancias, incrementando pesos de ejemplos mal clasificados para que modelos subsecuentes se enfoquen en casos difíciles.

🔍 Clustering y Agrupamiento

K-Means es algoritmo de clustering más popular que particiona datos en K clusters minimizando suma de distancias cuadradas entre puntos y centroides de clusters. Requiere especificar K previamente y es sensible a inicialización. Elbow method y Silhouette score ayudan a determinar K óptimo. El clustering jerárquico construye árbol de clusters (dendrograma) mediante aglomeración (bottom-up) o división (top-down), sin requerir K predefinido. Linkage criteria (single, complete, average, Ward) determinan cómo medir distancia entre clusters. DBSCAN (Density-Based Spatial Clustering) identifica clusters de densidad arbitraria, robusto ante outliers y no requiere K predefinido. Define clusters como regiones de alta densidad separadas por regiones de baja densidad. Gaussian Mixture Models (GMM) asume datos generados por mezcla de distribuciones gaussianas, usando Expectation-Maximization para estimar parámetros. Proporciona clustering probabilístico blando donde puntos pueden pertenecer parcialmente a múltiples clusters.

📉 Reducción de Dimensionalidad

Principal Component Analysis (PCA) transforma datos a nuevo sistema de coordenadas donde varianza es máxima en componentes principales ordenados. Reduce dimensionalidad proyectando datos en subespacio de menor dimensión que captura mayor varianza, útil para visualización, eliminación de ruido y acelerar algoritmos. t-SNE (t-Distributed Stochastic Neighbor Embedding) es técnica no lineal de reducción de dimensionalidad particularmente efectiva para visualización de datos de alta dimensión en 2D o 3D. Preserva estructura local convirtiendo distancias euclidianas en probabilidades condicionales y minimizando divergencia KL entre distribuciones en espacios de alta y baja dimensión. UMAP (Uniform Manifold Approximation and Projection) ofrece velocidad superior a t-SNE con mejor preservación de estructura global. Los Autoencoders neuronales aprenden encoding comprimido de datos mediante arquitectura encoder-decoder entrenada a reconstruir entrada, útiles para reducción no lineal de dimensionalidad, denoising y detección de anomalías.

🎯 Aprendizaje Semi-Supervisado y Auto-Supervisado

El aprendizaje semi-supervisado aprovecha grandes cantidades de datos no etiquetados junto con pequeña cantidad etiquetada. Self-training entrena modelo inicial en datos etiquetados, predice etiquetas para datos no etiquetados con alta confianza y re-entrena incluyendo estos pseudo-etiquetas. Co-training utiliza múltiples vistas de datos, donde modelos entrenados en vistas diferentes se enseñan mutuamente. Label propagation propaga etiquetas a través de grafo de similitud construido de datos. El aprendizaje auto-supervisado genera señales de supervisión automáticamente de datos sin requerir anotaciones humanas. En visión, rotación de imágenes, inpainting, y matching de parches generan tareas pretext. En NLP, masked language modeling (predecir palabras enmascaradas) y next sentence prediction son tareas pretext efectivas. Contrastive learning como SimCLR y MoCo aprende representaciones acercando representaciones de vistas aumentadas del mismo ejemplo y alejando ejemplos diferentes. Bootstrap Your Own Latent (BYOL) logra aprendizaje contrastivo sin pares negativos explícitos.

🔄 Selección y Validación de Modelos

La validación cruzada K-fold divide datos en K particiones, entrenando en K-1 y validando en la restante, repitiendo K veces y promediando métricas. Proporciona estimación robusta de rendimiento generalizador. Stratified K-fold preserva distribución de clases en cada fold, crucial para datasets desbalanceados. Leave-One-Out es caso extremo donde K=N, computacionalmente costoso pero unbiased. La búsqueda de hiperparámetros optimiza hiperparámetros no aprendibles (learning rate, profundidad árboles, número capas). Grid search prueba exhaustivamente combinaciones predefinidas, mientras Random search muestrea aleatoriamente de distribuciones de hiperparámetros, más eficiente en espacios de alta dimensión. Bayesian optimization modela función objetivo con proceso gaussiano y selecciona próximos hiperparámetros maximizando expected improvement. Las métricas de evaluación incluyen accuracy, precision, recall y F1-score para clasificación; MSE, MAE y R² para regresión; Silhouette score y Davies-Bouldin index para clustering. La curva ROC y AUC cuantifican tradeoff entre true positive rate y false positive rate.

🎓 Apartado 6

🎯 Resumen Ejecutivo

📖 Contenido Principal

📊 Aprendizaje Supervisado: Fundamentos

🌳 Métodos de Ensamble

🔍 Clustering y Agrupamiento

📉 Reducción de Dimensionalidad

🎯 Aprendizaje Semi-Supervisado y Auto-Supervisado

🔄 Selección y Validación de Modelos

📝 Test de Conocimientos - Apartado 6

1. ¿Qué método de ensamble construye modelos secuencialmente corrigiendo errores del anterior?

2. ¿Qué algoritmo de clustering no requiere especificar K previamente y es robusto ante outliers?

3. ¿Qué técnica de reducción de dimensionalidad es particularmente efectiva para visualización en 2D/3D?

4. ¿Qué tipo de aprendizaje genera señales de supervisión automáticamente sin anotaciones humanas?

5. ¿Qué método de validación divide datos en K particiones entrenando en K-1 y validando en la restante?

Resultados del Test