Skip to content

juancguerrerom13/Machine-Learning

 
 

Repository files navigation

profesional_scikitlearn_platzi

Repositorio de código usado durante el Curso Profesional de Scikit-Learn para Platzi.

Contenido de la carpeta Machine Learning

Notebooks (.ipynb)

  • Estrategias de Clustering.ipynb: Introducción a técnicas de clustering (aprendizaje no supervisado). Se muestra cómo agrupar datos con MiniBatchKMeans a partir del dataset de dulces y cómo asignar un grupo a cada observación.

  • Meanshift.ipynb: Implementación de MeanShift para descubrir automáticamente el número de clústeres. Incluye reducción de dimensionalidad con PCA para visualización 2D y graficación de centros de clúster.

  • Metodos de ensamble - Bagging y Boosting.ipynb: Demostración práctica de métodos de ensamble. Para Bagging se compara un KNeighborsClassifier base vs BaggingClassifier. Para Boosting se entrena GradientBoostingClassifier. Se evalúa exactitud sobre un conjunto de prueba.

  • Validacion de modelos.ipynb: Conceptos y práctica de validación de modelos. Uso de cross_val_score con DecisionTreeRegressor, esquemas KFold y demostración de optimización de hiperparámetros con RandomizedSearchCV y RandomForestRegressor.

  • Regularización - Regresión lineal, Lasso y Ridge.ipynb (antes Clase 14.ipynb): Comparativa entre LinearRegression, Lasso y Ridge sobre variables macro (gdp, family, lifexp, freedom, corruption). Incluye métricas de error MSE y visualización de coeficientes.

  • robust.ipynb: Comparación de estimadores robustos a outliers para regresión: RANSACRegressor, HuberRegressor y SVR. Se reporta el error cuadrático medio (MSE) y se discuten advertencias de convergencia cuando aplica.

Fuentes de datos (data/)

Los notebooks leen archivos CSV de la carpeta data:

  • candy.csv: Características de dulces (chocolate, fruity, caramel, etc.) con porcentajes de azúcar, precio y winpercent. Usado en notebooks de clustering (Estrategias de Clustering.ipynb y Meanshift.ipynb).
  • heart.csv: Variables clínicas para clasificación de enfermedad cardíaca. Usado en ensambles (Metodos de ensamble - Bagging y Boosting.ipynb).
  • felicidad.csv: Indicadores por país (gdp, family, lifexp, freedom, generosity, corruption, etc.) y score de felicidad. Usado en validación y optimización (Validacion de modelos.ipynb).
  • felicidad_corrupt.csv: Versión con ruido/outliers del dataset de felicidad para probar estimadores robustos (robust.ipynb).
  • whr2017.csv: Datos del World Happiness Report 2017. Usado para comparar regularización en regresión (Regularización - Regresión lineal, Lasso y Ridge.ipynb).

Cada notebook referencia los CSV mediante rutas relativas dentro de ./data/ (salvo whr2017.csv, que puede estar referenciado por ruta absoluta en algunos entornos; se recomienda ajustar a ruta relativa si fuera necesario).


Si deseas reproducir los ejemplos, asegúrate de tener instaladas las dependencias principales: pandas, numpy, scikit-learn, matplotlib.

About

Machine Learning repository with different ML models.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages

  • Jupyter Notebook 98.3%
  • Python 1.7%