Auteur: Gaspard-Fauvelle Angel
License: CC BY-NC-SA 2.0
Here is the english version of the document Data Preprocessing Methods
- Ingénierie des Caractéristiques
- Encodage des Variables Catégorielles
- Découpage des Données
- Utilitaires de Prétraitement
| Méthode / Outil (Sklearn uniquement) | Description |
|---|---|
MinMaxScaler (sklearn) |
Met à l’échelle les caractéristiques entre 0 et 1 |
StandardScaler (sklearn) |
Standardise les données (moyenne = 0, écart-type = 1) |
RobustScaler (sklearn) |
Utilise la médiane et l’IQR (robuste aux valeurs extrêmes) |
Normalizer (sklearn) |
Normalise chaque échantillon individuellement |
| Méthode / Outil | Description |
|---|---|
OrdinalEncoder (sklearn) |
Encode les variables ordinales en entiers ordonnés |
LabelEncoder (sklearn) |
Encode les catégories ordinales/rangées |
pd.get_dummies() \ OneHotEncoder (sklearn) |
Encode les variables nominales |
| Méthode / Outil | Description |
|---|---|
train_test_split() |
Sépare les données en ensembles d’entraînement/test (taille normale) |
StratifiedKFold |
Maintient les proportions des classes entre les plis (classification, jeu plus grand) |
KFold / GroupKFold |
Méthodes de validation croisée avec ou sans regroupement (régression, jeu plus grand) |
TimeSeriesSplit |
Méthodes de validation croisée faite pour les jeux de données incluant une variable date/datetime que vous aurez mis en tant qu'index |
| Outil / Concept | Description |
|---|---|
fit() / transform() / fit_transform() |
Méthodes d’application de transformations |
Pipeline (sklearn) |
Enchaîne les étapes de prétraitement et de modélisation |
ColumnTransformer (sklearn) |
Applique des transformateurs à des colonnes spécifiques |
FunctionTransformer |
Intègre des fonctions personnalisées dans un pipeline |
Vous pouvez vous rediriger vers la feuille finale sur End-To-End Data Science Workflow
Edité: 22/04/2025