AccueilBlogMLOps en pratique : REX LVMH, Dataiku, CI/CD et monitoring modeles
Guide recrutement data

MLOps en pratique : REX LVMH, Dataiku, CI/CD et monitoring modeles

8 modeles sur 10 qui passent la phase pilote ne survivent pas un an en production. Ce REX concret montre pourquoi et comment le MLOps resout ces problemes avec Dataiku dans un contexte grand groupe.

Data Builder·Juin 2025·7 min de lecture·Data Scientist · ML Engineer
Sommaire
  1. Le probleme MLOps en production
  2. Cycle de vie d un modele
  3. Le framework CI/CD ML
  4. MLOps avec Dataiku
  5. Fiabilite, scalabilite, tracabilite
  6. Portfolio LVMH
  7. Grille

Dans un grand groupe comme LVMH, maintenir des modeles ML en production sur des dizaines de maisons est un defi d organisation autant que de technique. Ce guide part d un cas concret.

1Le probleme : 8/10 modeles n survivent pas un an

Question discriminante

Pourquoi la majorite des modeles ML deployés ne survivent-ils pas un an en production ? Quelles sont les causes racines ?

  • Absence de responsable — personne n est designe pour surveiller et redemarrer le pipeline quand il echoue
  • Incomprehension — les nouveaux membres de l equipe ne comprennent pas les modeles existants, aucune documentation
  • Absence de processus de livraison — erreurs frequentes dans les outputs, pas de validation automatique
  • Rigidite face aux changements — le modele ne s adapte pas quand les donnees ou le contexte metier changent

2Les 4 phases du cycle de vie MLOps

PhaseActiviteOutput
1. IdentificationDefinition claire du probleme metierBusiness case valide, KPIs definis
2. DeveloppementCreation et entrainement du modele MLModele valide sur dataset de test
3. Phase piloteTest en conditions reelles, validation de la performanceValidation metier, seuils de performance etablis
4. ProductionIntegration, monitoring continu, ameliorationModele monitore, reentraine si derive detectee

3Le framework CI/CD ML : fiabilite, scalabilite, tracabilite

Question discriminante

Qu entendez-vous par CI/CD pour le ML ? En quoi est-ce different du CI/CD software classique ?

  • Fiabilite — monitoring des donnees (distribution des features), monitoring de la performance du modele, monitoring des outputs, retraining automatique
  • Scalabilite — pipeline orchestre reproductible, documentation technique et metier, onboarding rapide pour les nouveaux
  • Tracabilite — stocker les outputs historiques, journaliser les runs, versionner les modeles, permettre l audit
  • Difference avec CI/CD software — en ML, tester le comportement du modele est probabiliste (pas binaire). Un modele peut etre correctement deploye mais produire de mauvais resultats si les donnees ont derive

4MLOps avec Dataiku : ce que la plateforme apporte

Architecture MLOps LVMH avec Dataiku : [Donnees] -> [Scenario Dataiku] | Orchestration automatique : - Trigger : temporel, changement dataset, manuel - Reporter : Teams, email sur succes/echec | Metrics & checks (30% du temps) : - Data quality (schema, distributions) - Model performance en validation - Model performance en production - Distribution des outputs (avant/apres post-processing) | Refactoring code (60% du temps) : - Visual recipes -> SQL -> Python (performance) - SQL Pipelines (traitement natif en base) - Optimisation du stockage (zones) | Visualisation (5%) : - Dashboard de suivi dans Dataiku
  • Experiment Tracking — historique des runs avec parametres, performances, volume sur dataset de validation
  • Model Store — modeles valides historiques avec leurs metriques et seuils utilises
  • Scenario — equivalent d un DAG Airflow dans Dataiku, avec triggers, reporters et etapes

560% du temps : le refactoring est roi

Question discriminante

Dans un projet MLOps, combien de temps passez-vous a la modelisation vs au pipeline et au refactoring ?

  • 60% refactoring — optimisation du code pour la performance et la maintenabilite : passer des Visual Recipes Dataiku a SQL, puis a des SQL Pipelines natifs
  • 30% monitoring — mettre en place tous les checks : qualite des donnees, performance du modele, distribution des outputs
  • 5% visualisation — dashboard de suivi pour les stakeholders
  • 5% orchestration — configurer les triggers et les reporters
  • Conclusion — un MLOps 80% de machine learning et 20% d ingenierie est deja un projet en difficulte

6Types de modeles en production chez LVMH

  • Client Development — targeting des clients selon leur comportement (repeaters, one-timers)
  • Product Recommendation — recommandation de produits croisee entre les maisons du groupe
  • Sales Forecast — prevision des ventes par maison, zone, canal
  • Efficiency Models — optimisation des stocks, reduction des invendus
from evidently.report import Report from evidently.metric_preset import DataDriftPreset, TargetDriftPreset import mlflow class MLOpsPipeline: def train_and_log(self, X_train, y_train, X_val, y_val): with mlflow.start_run() as run: mlflow.sklearn.autolog() model = XGBClassifier(n_estimators=300, max_depth=6) model.fit(X_train, y_train, eval_set=[(X_val, y_val)]) mlflow.log_metric('auc', roc_auc_score(y_val, model.predict_proba(X_val)[:,1])) return run.info.run_id def check_drift(self, reference, production): report = Report(metrics=[DataDriftPreset(), TargetDriftPreset()]) report.run(reference_data=reference, current_data=production) result = report.as_dict() if result['metrics'][0]['result']['dataset_drift']: self.trigger_retraining() return result def trigger_retraining(self): requests.post(f'{AIRFLOW_URL}/api/v1/dags/retrain_churn/dagRuns', json={'conf': {'triggered_by': 'drift_detection'}}, auth=('airflow', AIRFLOW_PASSWORD))
  • Retraining triggers - drift detecte (Evidently), degradation metrique (AUC -5%), schedule calendaire (mensuel), ou volume seuil (100k nouveaux exemples)
  • Champion/Challenger pattern - le nouveau modele route 10% du trafic. Si Challenger surperforme apres N jours, promotion automatique
  • Feature Store - Feast, Databricks Feature Store, Vertex. Centralise les features entre training et serving. Elimine le training/serving skew
  • Model cards - documenter les performances par segment (age, region, produit). Obligatoire pour les modeles a impact reglementaire
  • Rollback immediat - le Model Registry MLflow permet de revenir en 1 commande a la version precedente. Tester le rollback regulierement en staging

7Grille par niveau

NiveauMaitriseSignal GONO-GO
ConfirmeA deploye un modele, connait MLflow, fait des checks basiquesA deploye en production, surveille la performance, reconnait les causes d obsolescencePense que deployer = mettre le notebook en prod
SeniorFramework MLOps complet, monitoring derive, CI/CD ML, Dataiku ou MLflow avanceA mis en place un monitoring complet, a configure un retraining automatiqueN a pas de monitoring sur ses modeles en production
LeadArchitecture MLOps organisation, gouvernance des modeles, choix de plateformesA defini le framework MLOps de son organisation, a choisi et deploye la plateformeNe peut pas expliquer pourquoi ses modeles meurent en production

Vous recrutez un Data Scientist ou ML Engineer ?

Premier entretien gratuit. Rapport GO/NO-GO sous 48h.