Repositorio de código usado durante el Curso Profesional de Scikit-Learn para Platzi.
-
Estrategias de Clustering.ipynb: Introducción a técnicas de clustering (aprendizaje no supervisado). Se muestra cómo agrupar datos con
MiniBatchKMeansa partir del dataset de dulces y cómo asignar un grupo a cada observación. -
Meanshift.ipynb: Implementación de
MeanShiftpara descubrir automáticamente el número de clústeres. Incluye reducción de dimensionalidad conPCApara visualización 2D y graficación de centros de clúster. -
Metodos de ensamble - Bagging y Boosting.ipynb: Demostración práctica de métodos de ensamble. Para Bagging se compara un
KNeighborsClassifierbase vsBaggingClassifier. Para Boosting se entrenaGradientBoostingClassifier. Se evalúa exactitud sobre un conjunto de prueba. -
Validacion de modelos.ipynb: Conceptos y práctica de validación de modelos. Uso de
cross_val_scoreconDecisionTreeRegressor, esquemasKFoldy demostración de optimización de hiperparámetros conRandomizedSearchCVyRandomForestRegressor. -
Regularización - Regresión lineal, Lasso y Ridge.ipynb (antes
Clase 14.ipynb): Comparativa entreLinearRegression,LassoyRidgesobre variables macro (gdp, family, lifexp, freedom, corruption). Incluye métricas de error MSE y visualización de coeficientes. -
robust.ipynb: Comparación de estimadores robustos a outliers para regresión:
RANSACRegressor,HuberRegressorySVR. Se reporta el error cuadrático medio (MSE) y se discuten advertencias de convergencia cuando aplica.
Los notebooks leen archivos CSV de la carpeta data:
candy.csv: Características de dulces (chocolate, fruity, caramel, etc.) con porcentajes de azúcar, precio ywinpercent. Usado en notebooks de clustering (Estrategias de Clustering.ipynbyMeanshift.ipynb).heart.csv: Variables clínicas para clasificación de enfermedad cardíaca. Usado en ensambles (Metodos de ensamble - Bagging y Boosting.ipynb).felicidad.csv: Indicadores por país (gdp, family, lifexp, freedom, generosity, corruption, etc.) yscorede felicidad. Usado en validación y optimización (Validacion de modelos.ipynb).felicidad_corrupt.csv: Versión con ruido/outliers del dataset de felicidad para probar estimadores robustos (robust.ipynb).whr2017.csv: Datos del World Happiness Report 2017. Usado para comparar regularización en regresión (Regularización - Regresión lineal, Lasso y Ridge.ipynb).
Cada notebook referencia los CSV mediante rutas relativas dentro de ./data/ (salvo whr2017.csv, que puede estar referenciado por ruta absoluta en algunos entornos; se recomienda ajustar a ruta relativa si fuera necesario).
Si deseas reproducir los ejemplos, asegúrate de tener instaladas las dependencias principales: pandas, numpy, scikit-learn, matplotlib.