Skip to content
View VictoorV's full-sized avatar
😀
😀

Block or report VictoorV

Block user

Prevent this user from interacting with your repositories and sending you notifications. Learn more about blocking users.

You must be logged in to block users.

Please don't include any personal information such as legal names or email addresses. Maximum 100 characters, markdown supported. This note will be visible to only you.
Report abuse

Contact GitHub support about this user’s behavior. Learn more about reporting abuse.

Report abuse
VictoorV/README.md

👋 Bienvenue

Statisticien/Data scientist passionné avec une solide formation en mathématiques appliquées et IA/machine learning.

🛠️ Compétences en programmation

Python PyTorch R SQL Java C++ Git Docker

🚀 Projets

Projet Technologies Description
Segmentation d'IRM du cerveau Python, PyTorch, U-Net, CV2 - Segmentation sémantique pour localiser les tumeurs.
- 80%+ Dice/IoU sur les patients de test.
Segmentation d'images de football Python, PyTorch, U-Net, CV2 - Segmentation sémantique pour détecter les joueurs/arbitres.
- Création d'un réseau U-Net et entrainement from scratch.
- 85% d'IoU.
Classification chien chat avec bruit Python, PyTorch, CV2, Weiner filter, ConvNeXtV2 - Traitement d'images avec flou de mouvement et bruit sel poivre.
- Transfer learning sur ConvNeXtv2.
- 92.70% d'accuracy.
Détection de port du masque Python, PyTorch, YOLOv8, Faster R-CNN - Détection d'objets (masque).
- Transfer learning sur YOLOv8.
- Transfer learning sur un modèle Faster R-CNN avec backbone ResNet50.
- Comparaison des résultats.
Détection de tumeur du cerveau Python, PyTorch, ResNet50, ConvNeXt, Scikit-learn, CNN - Visualisation et analyse de scans MRI.
- Transfer learning pour effectuer une tâche de classification multiple.
- 99% d'accuracy.
Détection du cancer du sein Python, PyTorch, ResNet50, ConvNeXt, EfficientNet, Scikit-learn, CNN - Visualisation et analyse d'immages de mammographie.
- Transfer learning sur des architectures CNN pour effectuer une tâche de classification.
- 71% d'accuracy.
Risque financier pour l'approbation de prêt Python, Scikit-learn, Pandas, ML - EDA (données financières), tests et fiting de lois statistiques.
- Scoring, régression pour la prédiction de score (métrique score f1/precision).
- Décision pour l'attribution ou non d'un prêt, classification pour l'attribution de label.
- Ajout du modèle de scoring au modèle de classification pour tester si les prédictions de score permettent d'améliorer la prise de décision.
Prédiction des maladies cardiaques pour une meilleure prévention Python, Scikit-learn, Pandas, ML - EDA (données de diabète, angine ...) + pre-processing.
- Optimisation de modèles de machine learning (MLP, RDF, XGB, SVC ...) pour avoir les meilleurs résultats (métrique score f1/recall).
Génération d'images de saules Python, PyTorch, Pandas, ML - Création et gestion d’une base de données d’images de saules.
- Étude théorique et recherche sur le traitement et la génération d’images.
- Développement et utilisation d’un GAN pour générer des images de saules.
Prédire si un individu est positif au COVID-19 Python, Scikit-learn, Pandas, ML - Analyse de données (données tests sanguins, tests viraux ...), pre-processing des données, feature engineering.
- Oversampling avec SMOTENC + méthodologie.
- Création de pipelines pour éviter TOUT data leakage.
- Optimisation de modèles de machine learning (MLP, RDF, XGB, SVC ...) pour avoir les meilleurs résultats (métrique score f1/recall).
- Ajustement du seuil de décision et conclusion.
Détection de logiciels malveillants Python, Scikit-learn, Pandas, ML - Nettoyage, visualisation, analyse de données. Étude statistique préliminaire.
- Sélection d’algorithmes de classification adaptés (régression logistique, KNN, arbres de décision, SVM, méta-algorithmes). Implémentation avec Scikit-learn.
- Évaluation des modèles avec des métriques de performance (AUC, précision, rappel, validation croisée). Identification des variables influentes.
Estimation par bootstrap et déchiffrage d'un message codé R - Estimation des paramètres par maximum de vraisemblance et construction d’intervalles de confiance pour les paramètres du modèle.
- Application de deux approches bootstrap (non paramétrique et paramétrique), calcul des intervalles de confiance/prédiction (IC, IP) bootstrap.
- Comparaison des méthodes bootstrap selon la taille d’échantillon, basée sur la précision des IC et la représentation graphique des IP.
- Création d’outils pour encoder, décoder et analyser les fréquences de lettres.
- Déchiffrage avec un algorithme Monte-Carlo par chaînes de Markov.
Étude de la criminalité aux États-Unis R - Analyse de la criminalité en fonction de variables socio-économiques.
- Sélection et comparaison de modèles de régression multiple (R², AIC). Tests d’hypothèses sur les coefficients et sur la significativité des modèles.
Analyse biostatistique des données d'expression génique avec tests multiples R - Recherche et théorie sur les tests multiples.
- Tests multiples avec corrections sur des données réelles d'expression génique.
Optimisation et planification industrielle, supply chain 2 AMPL - Modélisation d'un problème réel en problème mathématique.
- Analyse post-optimisation.
Optimisation et planification industrielle, supply chain 1 AMPL - Modélisation d'un problème réel en problème mathématique.
- Analyse post-optimisation.
Application de réservation de salles Java, MySQL - Gestion automatique afin d'éviter les conflits de réservation.
- Connexion Java - base de données SQL.

📊 Expérience professionnelle

Ingénieur R&D chez SEGULA Technologies (mars - septembre 2024)

  • Veille technologique et état de l'art sur l'apprentissage par renforcement en gestion énergétique.
  • Modélisation et résolution de problèmes MILP afin d'optimiser la consommation des bâtiments.
  • Développement d'un système innovant de gestion de l'énergie en temps réel par IA.

🎓 Formation

Master en mathématiques appliquées, Ingénierie Statistique et Numérique, à l'université de Lille (2022-2024)

  • Statistiques et probabilités (tests d'hypothèses, modélisation statistique, régression, séries temporelles, statistiques computationnelles, statistiques spatiales, biostatistiques, analyse de données, analyse factorielle).
  • Théorie et méthodes d'apprentissage (apprentissage supervisé, non supervisé, par renforcement, traitement naturel du langage, génération d'images).
  • Calcul scientifique (optimisation, recherche opérationnelle, traitement du signal).
  • Outils du big data (Git, Docker).

Licence en mathématiques pures à l'université de Lille (2021 - 2022)

  • Analyse réelle, complexe, numérique et matricielle.
  • Structures algébriques
  • Topologie
  • Probabilités
  • Équations différentielles

😄

Popular repositories Loading

  1. Breast_cancer Breast_cancer Public

    Mammographic images classification.

    Jupyter Notebook 2

  2. Reservation_salles_java Reservation_salles_java Public

    Ce projet Java est une application de gestion de réservations de salles. Elle permet aux utilisateurs d'ajouter, de modifier, de supprimer des salles et des réservations, ainsi que de visualiser le…

    Java

  3. Bootstrap_MCMC Bootstrap_MCMC Public

    Ce projet estime les paramètres d'un modèle via le maximum de vraisemblance et compare des intervalles de confiance obtenus par bootstrap. Il développe également des outils d'analyse des fréquences…

    R

  4. VictoorV VictoorV Public

  5. Detection_malwares Detection_malwares Public

    L'objectif de ce projet est de développer un classifieur capable de différencier les logiciels malwares des goodwares.

    Jupyter Notebook

  6. Criminalite_US Criminalite_US Public

    Une analyse de la criminalité en fonction de variables socio-économiques a été menée, incluant la sélection et la comparaison de modèles de régression multiple ainsi que des tests d'hypothèses sur …

    R