馃帗 Apartado 6

M茅todos de Aprendizaje Supervisado y No Supervisado

馃幆 Resumen Ejecutivo

Los m茅todos de aprendizaje autom谩tico se clasifican fundamentalmente en supervisado y no supervisado seg煤n la naturaleza de los datos de entrenamiento. El aprendizaje supervisado aprende mapeos de entrada a salida utilizando datos etiquetados, aplicable en clasificaci贸n (categorizar datos en clases discretas) y regresi贸n (predecir valores continuos). Algoritmos cl谩sicos incluyen regresi贸n lineal y log铆stica, 谩rboles de decisi贸n, Support Vector Machines (SVM), y m茅todos de ensamble como Random Forests y Gradient Boosting que combinan m煤ltiples modelos para mejorar rendimiento. Las redes neuronales supervidas aprenden representaciones jer谩rquicas mediante retropropagaci贸n. El aprendizaje no supervisado descubre patrones en datos sin etiquetas, incluyendo clustering (agrupar datos similares mediante K-Means, clustering jer谩rquico, DBSCAN) y reducci贸n de dimensionalidad (comprimir informaci贸n preservando estructura mediante PCA, t-SNE, autoencoders). Los m茅todos de aprendizaje por refuerzo permiten agentes aprender mediante interacci贸n con ambiente, recibiendo recompensas. Variantes h铆bridas incluyen aprendizaje semi-supervisado (combinando datos etiquetados y no etiquetados) y auto-supervisado (generando etiquetas autom谩ticamente de datos). La selecci贸n del m茅todo depende de disponibilidad de datos etiquetados, naturaleza del problema, requisitos de interpretabilidad y restricciones computacionales.

馃摉 Contenido Principal

馃搳 Aprendizaje Supervisado: Fundamentos

El aprendizaje supervisado constituye el paradigma m谩s com煤n en machine learning, donde modelos aprenden de ejemplos etiquetados para hacer predicciones sobre datos nuevos. En clasificaci贸n, el objetivo es asignar instancias a categor铆as discretas. La regresi贸n log铆stica, a pesar de su nombre, es algoritmo de clasificaci贸n que modela probabilidad de pertenencia a clase usando funci贸n log铆stica. Los 谩rboles de decisi贸n construyen modelos mediante particiones recursivas del espacio de caracter铆sticas bas谩ndose en reglas de decisi贸n, generando estructuras interpretables. Las Support Vector Machines (SVM) buscan hiperplano 贸ptimo que maximiza margen entre clases, utilizando kernel trick para manejar separaciones no lineales en espacios de alta dimensi贸n. Las redes neuronales feedforward con capas ocultas aprenden representaciones jer谩rquicas mediante retropropagaci贸n, ajustando pesos para minimizar error entre predicciones y etiquetas verdaderas. El entrenamiento requiere funci贸n de p茅rdida (cross-entropy para clasificaci贸n, MSE para regresi贸n) y optimizador (SGD, Adam) para actualizar par谩metros iterativamente.

馃尦 M茅todos de Ensamble

Los m茅todos de ensamble combinan m煤ltiples modelos d茅biles para construir predictor robusto y preciso. Random Forest entrena m煤ltiples 谩rboles de decisi贸n en submuestras bootstrap de datos con submuestreo aleatorio de caracter铆sticas, promediando predicciones para reducir varianza. Es robusto ante overfitting y maneja bien caracter铆sticas correlacionadas. Gradient Boosting construye modelos aditivos secuencialmente, donde cada nuevo modelo corrige errores de ensemble anterior, minimizando funci贸n de p茅rdida mediante descenso de gradiente. XGBoost implementa gradient boosting con optimizaciones computacionales avanzadas, regularizaci贸n para prevenir overfitting y manejo eficiente de valores faltantes, dominando competiciones de ML. LightGBM usa histogram-based learning para velocidad y eficiencia memoria, crecimiento de 谩rboles leaf-wise en lugar de level-wise para mayor precisi贸n, y GOSS (Gradient-based One-Side Sampling) que enfoca en instancias con gradientes grandes. AdaBoost asigna pesos a instancias, incrementando pesos de ejemplos mal clasificados para que modelos subsecuentes se enfoquen en casos dif铆ciles.

馃攳 Clustering y Agrupamiento

K-Means es algoritmo de clustering m谩s popular que particiona datos en K clusters minimizando suma de distancias cuadradas entre puntos y centroides de clusters. Requiere especificar K previamente y es sensible a inicializaci贸n. Elbow method y Silhouette score ayudan a determinar K 贸ptimo. El clustering jer谩rquico construye 谩rbol de clusters (dendrograma) mediante aglomeraci贸n (bottom-up) o divisi贸n (top-down), sin requerir K predefinido. Linkage criteria (single, complete, average, Ward) determinan c贸mo medir distancia entre clusters. DBSCAN (Density-Based Spatial Clustering) identifica clusters de densidad arbitraria, robusto ante outliers y no requiere K predefinido. Define clusters como regiones de alta densidad separadas por regiones de baja densidad. Gaussian Mixture Models (GMM) asume datos generados por mezcla de distribuciones gaussianas, usando Expectation-Maximization para estimar par谩metros. Proporciona clustering probabil铆stico blando donde puntos pueden pertenecer parcialmente a m煤ltiples clusters.

馃搲 Reducci贸n de Dimensionalidad

Principal Component Analysis (PCA) transforma datos a nuevo sistema de coordenadas donde varianza es m谩xima en componentes principales ordenados. Reduce dimensionalidad proyectando datos en subespacio de menor dimensi贸n que captura mayor varianza, 煤til para visualizaci贸n, eliminaci贸n de ruido y acelerar algoritmos. t-SNE (t-Distributed Stochastic Neighbor Embedding) es t茅cnica no lineal de reducci贸n de dimensionalidad particularmente efectiva para visualizaci贸n de datos de alta dimensi贸n en 2D o 3D. Preserva estructura local convirtiendo distancias euclidianas en probabilidades condicionales y minimizando divergencia KL entre distribuciones en espacios de alta y baja dimensi贸n. UMAP (Uniform Manifold Approximation and Projection) ofrece velocidad superior a t-SNE con mejor preservaci贸n de estructura global. Los Autoencoders neuronales aprenden encoding comprimido de datos mediante arquitectura encoder-decoder entrenada a reconstruir entrada, 煤tiles para reducci贸n no lineal de dimensionalidad, denoising y detecci贸n de anomal铆as.

馃幆 Aprendizaje Semi-Supervisado y Auto-Supervisado

El aprendizaje semi-supervisado aprovecha grandes cantidades de datos no etiquetados junto con peque帽a cantidad etiquetada. Self-training entrena modelo inicial en datos etiquetados, predice etiquetas para datos no etiquetados con alta confianza y re-entrena incluyendo estos pseudo-etiquetas. Co-training utiliza m煤ltiples vistas de datos, donde modelos entrenados en vistas diferentes se ense帽an mutuamente. Label propagation propaga etiquetas a trav茅s de grafo de similitud construido de datos. El aprendizaje auto-supervisado genera se帽ales de supervisi贸n autom谩ticamente de datos sin requerir anotaciones humanas. En visi贸n, rotaci贸n de im谩genes, inpainting, y matching de parches generan tareas pretext. En NLP, masked language modeling (predecir palabras enmascaradas) y next sentence prediction son tareas pretext efectivas. Contrastive learning como SimCLR y MoCo aprende representaciones acercando representaciones de vistas aumentadas del mismo ejemplo y alejando ejemplos diferentes. Bootstrap Your Own Latent (BYOL) logra aprendizaje contrastivo sin pares negativos expl铆citos.

馃攧 Selecci贸n y Validaci贸n de Modelos

La validaci贸n cruzada K-fold divide datos en K particiones, entrenando en K-1 y validando en la restante, repitiendo K veces y promediando m茅tricas. Proporciona estimaci贸n robusta de rendimiento generalizador. Stratified K-fold preserva distribuci贸n de clases en cada fold, crucial para datasets desbalanceados. Leave-One-Out es caso extremo donde K=N, computacionalmente costoso pero unbiased. La b煤squeda de hiperpar谩metros optimiza hiperpar谩metros no aprendibles (learning rate, profundidad 谩rboles, n煤mero capas). Grid search prueba exhaustivamente combinaciones predefinidas, mientras Random search muestrea aleatoriamente de distribuciones de hiperpar谩metros, m谩s eficiente en espacios de alta dimensi贸n. Bayesian optimization modela funci贸n objetivo con proceso gaussiano y selecciona pr贸ximos hiperpar谩metros maximizando expected improvement. Las m茅tricas de evaluaci贸n incluyen accuracy, precision, recall y F1-score para clasificaci贸n; MSE, MAE y R虏 para regresi贸n; Silhouette score y Davies-Bouldin index para clustering. La curva ROC y AUC cuantifican tradeoff entre true positive rate y false positive rate.

馃摑 Test de Conocimientos - Apartado 6

1. 驴Qu茅 m茅todo de ensamble construye modelos secuencialmente corrigiendo errores del anterior?

a) Random Forest
b) Gradient Boosting
c) Bagging
d) K-Means

2. 驴Qu茅 algoritmo de clustering no requiere especificar K previamente y es robusto ante outliers?

a) K-Means
b) Gaussian Mixture Models
c) DBSCAN
d) Clustering Jer谩rquico

3. 驴Qu茅 t茅cnica de reducci贸n de dimensionalidad es particularmente efectiva para visualizaci贸n en 2D/3D?

a) PCA
b) LDA
c) Factor Analysis
d) t-SNE

4. 驴Qu茅 tipo de aprendizaje genera se帽ales de supervisi贸n autom谩ticamente sin anotaciones humanas?

a) Aprendizaje Supervisado
b) Aprendizaje Auto-Supervisado
c) Aprendizaje por Transferencia
d) Aprendizaje Activo

5. 驴Qu茅 m茅todo de validaci贸n divide datos en K particiones entrenando en K-1 y validando en la restante?

a) Hold-out validation
b) Bootstrap
c) K-fold cross-validation
d) Monte Carlo cross-validation

Resultados del Test