Ce projet académique (Master IA - Faculté des Sciences Ben M'sik) vise à analyser les mutations du gène CFTR responsables de l'infertilité masculine connue sous le nom de CBAVD (Congenital Bilateral Absence of the Vas Deferens).
Il combine deux approches :
- Bio-informatique classique : Alignement de séquences (Needleman-Wunsch / Smith-Waterman) pour identifier les mutations (F508del, etc.).
- Intelligence Artificielle : Modèles de Machine Learning (Random Forest) pour prédire la pathogénicité des variants génétiques.
- Extraction et analyse des séquences FASTA (NCBI).
- Alignement Global (Needleman-Wunsch) et Local (Smith-Waterman).
- Visualisation des matrices de scores et des identités de séquences.
- Classification : Prédiction Pathogène / Bénin / Incertain.
- Modèle : Random Forest entraîné sur ClinVar (Accuracy: ~67%, F1-Score: ~64%).
- Gestion des déséquilibres : Utilisation de SMOTETomek.
Une application Streamlit interactive permettant de :
- Uploader un fichier de variants.
- Lancer l'analyse IA en temps réel.
- Visualiser les statistiques et la concordance ClinVar.
PROJET_BIO-INFORMATIQUE/
│
├── src/
│ ├── bioinformatics/ # Scripts d'alignement et séquences FASTA
│ └── prediction_app/ # Application Streamlit et modèles ML (.pkl)
│
├── report/ # Rapport final LaTeX et PDF
│ ├── main.pdf # <--- Lire le rapport complet ici
│ └── images/ # Captures d'écran et figures
│
├── data/ # Jeux de données (ClinVar, exemples)
└── requirements.txt # Dépendances Pythongit clone https://github.com/votre-username/projet-cftr-bioinfo.git
cd projet-cftr-bioinfopip install -r requirements.txtstreamlit run src/prediction_app/app.pyMaster d'Excellence en Intelligence Artificielle (2025-2026)
- Youssef SARRAF
- Yassine FARIH
- Adnane DAHBI
Encadré par : Prof. Ichrak BENAMRI
Faculté des Sciences Ben M'sik - Université Hassan II de Casablanca