Dans le cadre de ma formation à l'EPSI Paris, nous avons été amenés à travailler sur un pipeline ETL (Extract, Transform, Load) conçu pour extraire des données de sources variées, les transformer en un format exploitable, et les charger dans une base de données pour analyse. Ce projet se concentre sur l'analyse des données COVID-19 et MPOX.
Nous avons choisi d'utiliser les données COVID-19 en raison de leur structure bien définie et de leur couverture mondiale, ce qui est essentiel pour notre modÚle d'intelligence artificielle.
Le modÚle de données comprend trois tables principales : pays
, maladie
, et situation_pandemique
. Ces tables sont conçues pour capturer les relations entre les pays, les maladies, et les situations pandémiques.
Lors de la mise en place du pipeline ETL, plusieurs défis ont été rencontrés, notamment la gestion des données manquantes et l'optimisation des performances de la base de données.
L'utilisation de bibliothĂšques Python puissantes comme pandas et NumPy a permis de surmonter ces dĂ©fis. De plus, l'optimisation des requĂȘtes SQL et l'utilisation d'index ont amĂ©liorĂ© les performances.
python-json-logger
pour structurer les logs.pyenv
pour gĂ©rer les versions de Python et s'assurer que tous les environnements utilisent la mĂȘme version.Sphinx
pour générer une documentation lisible et bien structurée.Status: En cours
Date: Janvier 2025
Type: Pipeline ETL
Catégorie: Data Engineering
RĂ©gion cible: Global