Skip to content

En tant que Data Scientist, je veux tester différentes méthodes d'imputation (linéaire vs KNN) pour combler les sessions d'entraînement non enregistrées afin de ne pas fausser le calcul de la charge chronique #3

@brahimcode604

Description

@brahimcode604

1️⃣ Analyse initiale des données

Identifier les sessions d’entraînement manquantes dans les données

Visualiser les patterns de données manquantes (par athlète, par date)

Vérifier les variables disponibles pour l’imputation (durée, intensité, type d’entraînement)

2️⃣ Préparation des données pour l’imputation

Nettoyer les données aberrantes avant imputation

Créer un DataFrame complet par athlète avec toutes les dates prévues

Marquer les valeurs manquantes (NaN) pour les sessions non enregistrées

3️⃣ Implémentation des méthodes d’imputation
a) Imputation linéaire

Implémenter l’imputation linéaire temporelle (interpolation entre sessions connues)

Tester sur un échantillon pour vérifier cohérence

b) Imputation KNN

Sélectionner les features pertinentes pour KNN (durée, intensité, fréquence cardiaque)

Implémenter KNN Imputer (scikit-learn)

Tester sur un échantillon et comparer avec les valeurs réelles connues

4️⃣ Évaluation des méthodes

Comparer linéaire vs KNN sur des données simulées ou partielles

Calculer métriques d’erreur (MAE, RMSE) pour chaque méthode

Visualiser graphiquement l’imputation vs les valeurs originales

5️⃣ Impact sur la charge chronique

Calculer la charge chronique avant et après imputation

Vérifier si l’imputation modifie significativement les résultats

Documenter la meilleure méthode pour l’analyse finale

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions