MLOps

Durée : 56 heures – Évaluation : QCM + Travaux Dirigés + Travaux Pratiques + Projet

Présentation

Ce cours s’adresse aux étudiants en informatique, aux data scientists, aux architectes IA souhaitant faire de la gestion de projet pour déployer et migrer des architectures IA avec leurs données. Il s’adresse à des professionnels et étudiants ayant déjà une certaine expérience ou connaissance dans le domaine de l’Intelligence Artificielle, du Machine Learning, de la gestion de projet ou des technologies DevOps.

La formation vise à fournir des compétences en MLOps, gestion de projets IA, déploiement de modèles, administration d’infrastructures avec Docker et Kubernetes, ainsi que la surveillance et la fiabilité des systèmes en production. Les étudiants sauront définir et expliquer les enjeux fondamentaux du MLOps, comme la fiabilité, la scalabilité, la gestion des versions et la collaboration entre data scientists et opérations.

Les étudiants maîtriseront le cycle de vie d’un projet de Machine Learning, depuis la collecte des données jusqu’au monitorage en production, en intégrant des pratiques d’intégration et de déploiement continus (CI/CD). Ils seront capables de concevoir et mettre en place une architecture de déploiement utilisant Docker et Kubernetes, en gérant le stockage persistant, la scalabilité automatique, et la résilience des systèmes. Ils comprendront également les méthodes avancées de gestion de projet, notamment pour planifier efficacement leurs projets. Ils sauront utiliser des outils collaboratifs comme Jira, Trello, Notion, Confluence et Git pour organiser leur travail et assurer une documentation continue. La maîtrise de la gestion des données, du versioning avec DVC, Git, et l’automatisation de pipelines de traitement seront également maîtrisées.

Ils seront formés à la surveillance proactive grâce à Prometheus, Grafana et ELK Stack, pour assurer la haute disponibilité et la résilience de leurs déploiements. Ils pourront orchestrer la scalabilité et la fiabilité des systèmes via Kubernetes, en configurant l’auto-scaling, la gestion des pannes, la sauvegarde, la restauration et la sécurité. Ils disposeront de compétences concrètes pour déployer, surveiller et maintenir efficacement des solutions de Machine Learning à grande échelle dans un environnement professionnel, en adoptant les meilleures pratiques de DevOps et DataOps.

Nicolas BONALDI

Objectifs pédagogiques

Présenter les principes fondamentaux de MLOps pour comprendre ses enjeux clés
Expliquer le cycle de vie d’un projet MLOps, de la collecte à la maintenance
Illustrer la gestion de projet agile avec la planification, la gouvernance et la gestion des risques
Démontrer l’utilisation d’outils collaboratifs comme Jira, Notion, Trello et Confluence
Mettre en pratique la conception d’une architecture de déploiement avec Docker et Kubernetes
Organiser une session de collecte, nettoyage, versioning et automatisation des pipelines de données
Valider le développement, la validation et la gestion des modèles à l’aide d’outils comme MLflow et DVC
Effectuer une mise en œuvre concrète de déploiement continu, de monitoring et de résilience avec Kubernetes et Docker

Plan du module

Introduction à MLOps, gestion de projet et concepts fondamentaux (7 heures)
- Présentation de MLOps
- Introduction à la gestion de projet en Intelligence Artificielle
- Outils de gestion personnelle et en équipe
- Cas d’usage et étude de projets MLOps réels
- Mise en place d’un plan de projet
- Introduction à la gestion de projet
- Présentation des environnements de développement et de production avec Docker et Kubernetes
Gestion de projet (7 heures)
- Concepts avancés en gestion de projet
- Planification stratégique et roadmap produit
- Méthodes de planification
- Outils de planification
- Introduction à l’Infrastructure as Code (IaC) avec Docker et Kubernetes pour la Data Science
- Atelier pratique : élaborer une architecture de déploiement pour un projet IA
Data Management, Préparation des Données, Stockage et Gestion de Version (7 heures)
- Collecte, stockage, nettoyage, versioning (DVC, Git, Data Lakes)
- Automatisation et orchestration des pipelines de données
- Gestion des métadonnées, traçabilité, documentation
- Mise en pratique : création d’un pipeline automatisé de préparation des données
- Introduction à la gestion des persistances de données dans Docker et Kubernetes
Développement, validation et gestion de modèles (7heures)
- Entraînement de modèles : local vs. Cloud
- Versionnage des modèles, hyper-paramètres (MLflow, DVC)
- Environnements reproductibles
- Validation, tests, évaluation continue
- Revue de code, partage, intégration continue (CI)
- Présentation de modèles, feedback collectif
- Intégration de Docker pour le développement reproductible et le déploiement de modèles
Déploiement automatisé, Docker, Kubernetes et CI/CD (7 heures)
- Introduction aux pipelines CI/CD (Intégration Continue / Déploiement Continu)
- Automatisation du déploiement avec Docker et Kubernetes
- Création et gestion de conteneurs Docker
- Orchestration avec Kubernetes
- Mise en place d’un pipeline de déploiement complet
- Installation et configuration avancée
- Création d’images optimisées et gestion des réseaux/volumes
- Sécurité
- Mise en place d’un cluster Kubernetes
- Atelier pratique
- Gestion des versions et rollbacks
Surveillance, maintenance et gestion avancée de Kubernetes et Docker (7 heures)
- Mise en place de monitoring
- Surveillance des conteneurs Docker et des clusters Kubernetes
- Gestion des incidents
- Stratégies de haute disponibilité et résilience
- Optimisation de la gestion de la persistance des données, sauvegardes, restaurations, volumes persistants
- Mise en pratique : configurer un tableau de bord de monitoring, réponse à une alerte
- Automatisation de la maintenance et des ré-entraînements de modèles
- Analyse de logs et incidents
Gestion de projet avancée, collaboration et environnement professionnel (7 heures)
- Méthodes avancées de gestion de projet
- Outils collaboratifs
- Documentation continue, gestion des dépendances, suivi des versions
- Coordination interdisciplinaire : communication entre data scientists, Ops, développeurs
- Simuler une intégration continue et un déploiement progressif
- Gestion d’un projet en mode Agile avec sprints et rétrospectives
Scalabilité, fiabilité, stratégies avancées et gestion complète de Kubernetes et Docker (7 heures)
- Concepts de scalabilité : auto-scaling, load balancing, architecture serverless
- Stratégies de fiabilité
- Gestion des pannes et tests de résilience
- Déploiement à grande échelle : étude de cas, planification des ressources
- Configuration avancée de clusters Kubernetes
- Déployer un modèle scalable avec Kubernetes, configurer l’autoscaler, gérer les pannes
- Actions concrètes en Kubernetes
- Gestion avancée de Docker
- Gestion de projets pour la scalabilité et la fiabilité

Bibliographie et ressources

A Guide to Implementing MLOps From Data to Operations (Prafful Mishra, éditeur : Springer Nature Switzerland, ISBN : 9783031820106, 303182010X – 2025)
Ultimate MLOps for Machine Learning Models, Use Real Case Studies to Efficiently Build, Deploy, and Scale Machine Learning Pipelines with MLOps (English Edition) (Saurabh Dorle, éditeur : Orange Education Pvt Ltd, ISBN : 9788197651205, 8197651205 – 2024)
MLOps with Red Hat OpenShift, A Cloud-native Approach to Machine Learning Operations (Ross Brigoli, Faisal Masood, éditeur: Packt Publishing, ISBN: 9781805125853, 1805125850 – 2024)

Ce module fait partie de notre parcours Mastère Intelligence Artificielle (Bac+5) en première année.

Plutôt envie de découvrir ce module en immersion avant de vous inscrire ?
Participez à une de nos prochaines journées découvertes.