Statisticien/Data scientist passionné avec une solide formation en mathématiques appliquées et IA/machine learning.
Projet | Technologies | Description |
---|---|---|
Segmentation d'IRM du cerveau | Python, PyTorch, U-Net, CV2 | - Segmentation sémantique pour localiser les tumeurs. - 80%+ Dice/IoU sur les patients de test. |
Segmentation d'images de football | Python, PyTorch, U-Net, CV2 | - Segmentation sémantique pour détecter les joueurs/arbitres. - Création d'un réseau U-Net et entrainement from scratch. - 85% d'IoU. |
Classification chien chat avec bruit | Python, PyTorch, CV2, Weiner filter, ConvNeXtV2 | - Traitement d'images avec flou de mouvement et bruit sel poivre. - Transfer learning sur ConvNeXtv2. - 92.70% d'accuracy. |
Détection de port du masque | Python, PyTorch, YOLOv8, Faster R-CNN | - Détection d'objets (masque). - Transfer learning sur YOLOv8. - Transfer learning sur un modèle Faster R-CNN avec backbone ResNet50. - Comparaison des résultats. |
Détection de tumeur du cerveau | Python, PyTorch, ResNet50, ConvNeXt, Scikit-learn, CNN | - Visualisation et analyse de scans MRI. - Transfer learning pour effectuer une tâche de classification multiple. - 99% d'accuracy. |
Détection du cancer du sein | Python, PyTorch, ResNet50, ConvNeXt, EfficientNet, Scikit-learn, CNN | - Visualisation et analyse d'immages de mammographie. - Transfer learning sur des architectures CNN pour effectuer une tâche de classification. - 71% d'accuracy. |
Risque financier pour l'approbation de prêt | Python, Scikit-learn, Pandas, ML | - EDA (données financières), tests et fiting de lois statistiques. - Scoring, régression pour la prédiction de score (métrique score f1/precision). - Décision pour l'attribution ou non d'un prêt, classification pour l'attribution de label. - Ajout du modèle de scoring au modèle de classification pour tester si les prédictions de score permettent d'améliorer la prise de décision. |
Prédiction des maladies cardiaques pour une meilleure prévention | Python, Scikit-learn, Pandas, ML | - EDA (données de diabète, angine ...) + pre-processing. - Optimisation de modèles de machine learning (MLP, RDF, XGB, SVC ...) pour avoir les meilleurs résultats (métrique score f1/recall). |
Génération d'images de saules | Python, PyTorch, Pandas, ML | - Création et gestion d’une base de données d’images de saules. - Étude théorique et recherche sur le traitement et la génération d’images. - Développement et utilisation d’un GAN pour générer des images de saules. |
Prédire si un individu est positif au COVID-19 | Python, Scikit-learn, Pandas, ML | - Analyse de données (données tests sanguins, tests viraux ...), pre-processing des données, feature engineering. - Oversampling avec SMOTENC + méthodologie. - Création de pipelines pour éviter TOUT data leakage. - Optimisation de modèles de machine learning (MLP, RDF, XGB, SVC ...) pour avoir les meilleurs résultats (métrique score f1/recall). - Ajustement du seuil de décision et conclusion. |
Détection de logiciels malveillants | Python, Scikit-learn, Pandas, ML | - Nettoyage, visualisation, analyse de données. Étude statistique préliminaire. - Sélection d’algorithmes de classification adaptés (régression logistique, KNN, arbres de décision, SVM, méta-algorithmes). Implémentation avec Scikit-learn. - Évaluation des modèles avec des métriques de performance (AUC, précision, rappel, validation croisée). Identification des variables influentes. |
Estimation par bootstrap et déchiffrage d'un message codé | R | - Estimation des paramètres par maximum de vraisemblance et construction d’intervalles de confiance pour les paramètres du modèle. - Application de deux approches bootstrap (non paramétrique et paramétrique), calcul des intervalles de confiance/prédiction (IC, IP) bootstrap. - Comparaison des méthodes bootstrap selon la taille d’échantillon, basée sur la précision des IC et la représentation graphique des IP. - Création d’outils pour encoder, décoder et analyser les fréquences de lettres. - Déchiffrage avec un algorithme Monte-Carlo par chaînes de Markov. |
Étude de la criminalité aux États-Unis | R | - Analyse de la criminalité en fonction de variables socio-économiques. - Sélection et comparaison de modèles de régression multiple (R², AIC). Tests d’hypothèses sur les coefficients et sur la significativité des modèles. |
Analyse biostatistique des données d'expression génique avec tests multiples | R | - Recherche et théorie sur les tests multiples. - Tests multiples avec corrections sur des données réelles d'expression génique. |
Optimisation et planification industrielle, supply chain 2 | AMPL | - Modélisation d'un problème réel en problème mathématique. - Analyse post-optimisation. |
Optimisation et planification industrielle, supply chain 1 | AMPL | - Modélisation d'un problème réel en problème mathématique. - Analyse post-optimisation. |
Application de réservation de salles | Java, MySQL | - Gestion automatique afin d'éviter les conflits de réservation. - Connexion Java - base de données SQL. |
- Veille technologique et état de l'art sur l'apprentissage par renforcement en gestion énergétique.
- Modélisation et résolution de problèmes MILP afin d'optimiser la consommation des bâtiments.
- Développement d'un système innovant de gestion de l'énergie en temps réel par IA.
Master en mathématiques appliquées, Ingénierie Statistique et Numérique, à l'université de Lille (2022-2024)
- Statistiques et probabilités (tests d'hypothèses, modélisation statistique, régression, séries temporelles, statistiques computationnelles, statistiques spatiales, biostatistiques, analyse de données, analyse factorielle).
- Théorie et méthodes d'apprentissage (apprentissage supervisé, non supervisé, par renforcement, traitement naturel du langage, génération d'images).
- Calcul scientifique (optimisation, recherche opérationnelle, traitement du signal).
- Outils du big data (Git, Docker).
- Analyse réelle, complexe, numérique et matricielle.
- Structures algébriques
- Topologie
- Probabilités
- Équations différentielles
😄