1️⃣ Analyse initiale des données
Identifier les sessions d’entraînement manquantes dans les données
Visualiser les patterns de données manquantes (par athlète, par date)
Vérifier les variables disponibles pour l’imputation (durée, intensité, type d’entraînement)
2️⃣ Préparation des données pour l’imputation
Nettoyer les données aberrantes avant imputation
Créer un DataFrame complet par athlète avec toutes les dates prévues
Marquer les valeurs manquantes (NaN) pour les sessions non enregistrées
3️⃣ Implémentation des méthodes d’imputation
a) Imputation linéaire
Implémenter l’imputation linéaire temporelle (interpolation entre sessions connues)
Tester sur un échantillon pour vérifier cohérence
b) Imputation KNN
Sélectionner les features pertinentes pour KNN (durée, intensité, fréquence cardiaque)
Implémenter KNN Imputer (scikit-learn)
Tester sur un échantillon et comparer avec les valeurs réelles connues
4️⃣ Évaluation des méthodes
Comparer linéaire vs KNN sur des données simulées ou partielles
Calculer métriques d’erreur (MAE, RMSE) pour chaque méthode
Visualiser graphiquement l’imputation vs les valeurs originales
5️⃣ Impact sur la charge chronique
Calculer la charge chronique avant et après imputation
Vérifier si l’imputation modifie significativement les résultats
Documenter la meilleure méthode pour l’analyse finale