AccueilBlogStack data moderne 2025 : quelle architecture choisir ?
Guide recrutement data

Stack data moderne 2025 : quelle architecture choisir ?

Modern Data Stack, Lakehouse, Data Mesh — le marché propose de nombreuses architectures. En entretien Lead ou Architect, on évalue la capacité à choisir la bonne selon le contexte.

Data Builder·Juin 2025·7 min de lecture·Data Architect · Data Engineer Lead
Sommaire
  1. Modern Data Stack
  2. Architecture Lakehouse
  3. Data Mesh
  4. Comparaison selon le contexte
  5. Comment décider
  6. Les outils de chaque stack
  7. Grille

1Modern Data Stack : le standard des scale-ups

Question discriminante

Qu est-ce que la Modern Data Stack ? Quels sont ses composants types ?

  • Définition — stack cloud-native modulaire : un outil best-of-breed par couche, tous intégrés via API
  • Couches typiques :
CoucheOutils courants
IngestionFivetran, Airbyte, Stitch
StockageSnowflake, BigQuery, Redshift
Transformationdbt (standard de facto)
OrchestrationAirflow, Prefect, Dagster
BILooker, Metabase, Power BI
ObservabilitéMonte Carlo, Elementary, Metaplane
  • Avantages — rapide à déployer, peu de maintenance infra, mise à l échelle automatique
  • Limites — coûts qui peuvent exploser à grande échelle, dépendance aux vendeurs SaaS

2Architecture Lakehouse

Question discriminante

Qu est-ce qu un Lakehouse ? En quoi combine-t-il Data Lake et Data Warehouse ?

  • Data Lake — stockage brut de tous les formats (Parquet, JSON, CSV) dans S3/GCS. Pas cher mais pas de ACID, pas de performance SQL
  • Data Warehouse — SQL performant, ACID, mais cher et fermé (Snowflake, BigQuery)
  • Lakehouse — combine les deux : stockage ouvert (S3/GCS) + couche transactionnelle (Delta Lake, Iceberg) + SQL performant. Databricks et Apache Iceberg sur AWS sont les références
  • Avantages — coût stockage réduit, pas de vendor lock-in, supporte ML et BI sur le même dataset
  • Limites — plus complexe à opérer qu un Data Warehouse managé

3Data Mesh : décentralisation

Question discriminante

Dans quelle situation le Data Mesh est-il pertinent ? Et quand est-il contre-productif ?

  • Pertinent — grande organisation (>500 personnes), multiples équipes autonomes, données qui appartiennent clairement à des domaines métier distincts
  • Contre-productif — petite équipe (<10 data), organisation centralisée, stack déjà simple et fonctionnelle
  • Prérequis organisationnels — chaque domaine doit avoir des Data Owners techniques. Sans ça, le Data Mesh crée du chaos

Erreur fréquente : adopter le Data Mesh parce que c est tendance, sans avoir les prérequis organisationnels. Le Data Mesh est une transformation culturelle avant d être une transformation technique.

4Comparaison selon la taille et le contexte

ContexteArchitecture recommandéePourquoi
Startup / PME, <5 dataModern Data Stack simple (Airbyte + BigQuery + dbt + Metabase)Rapide à déployer, peu de maintenance, coût maîtrisé
Scale-up, 5-20 dataMDS complète + observabilitéVolume croissant, besoin de fiabilité, équipe structurée
Grand groupe, >50 dataLakehouse (Databricks ou Iceberg) ou MDS avec gouvernanceVolume important, coûts SaaS élevés, besoins ML
Très grande organisation, >200 dataData Mesh si organisation le permet, sinon LakehouseAutonomie des domaines, impossibilité de centraliser

5Les vraies questions pour choisir

  • 'Quel est le volume de données ?' — <1TB/jour : MDS SaaS suffit. >10TB/jour : Lakehouse à considérer
  • 'Quelle est la maturité de l équipe ?' — équipe junior : MDS managée. équipe Senior : Lakehouse open source possible
  • 'Quel est le budget ?' — Snowflake à grande échelle peut coûter très cher. Iceberg + S3 est moins cher mais plus complexe
  • 'Quels sont les besoins ML ?' — si ML intensif : Lakehouse ou Databricks. Si seulement BI : MDS suffit
  • 'Quelle indépendance vis-à-vis des vendeurs ?' — Iceberg + DuckDB/Spark = maximum de portabilité

6Les outils de chaque couche en 2025

  • Ingestion — Fivetran (best-in-class, cher), Airbyte (open source, flexible), Singer (minimal)
  • Transformation — dbt (standard), SQLMesh (concurrent montant), Spark pour les très gros volumes
  • Orchestration — Airflow (standard), Prefect (developer-friendly), Dagster (assets-based)
  • Stockage — BigQuery (GCP natif), Snowflake (multi-cloud, facile), Databricks (Lakehouse), DuckDB (local/analytique)
  • Catalogue — DataHub (LinkedIn, open source), OpenMetadata, Collibra (enterprise)
  • Modern Data Stack en 2025 - Fivetran/Airbyte + dbt + Snowflake/BigQuery + Looker/Metabase reste le standard pour les scale-ups. 6 semaines max pour avoir une stack fonctionnelle
  • Lakehouse - Databricks ou Iceberg + Spark pour les organisations avec > 10TB/j ou des besoins ML intensifs. Plus complexe a operer mais cout reduit vs Snowflake a grande echelle
  • Data Mesh - pertinent uniquement si l organisation a > 200 personnes data avec des domaines metier autonomes. La transformation organisationnelle precede la technique
  • DuckDB 2025 - emergence comme moteur analytique local et pour les petites stacks. Remplace pandas pour l analytique, S3 direct, MotherDuck pour le cloud
  • GenAI dans la stack - les assistants SQL (Hex, Mode, Databricks AI), les data catalogs avec recherche semantique, et les agents data entrent dans les stacks 2025
  • Modern Data Stack - Fivetran/Airbyte + dbt + Snowflake/BigQuery + Looker/Metabase reste le standard pour les scale-ups. 6 semaines max pour une stack fonctionnelle
  • Lakehouse - Databricks ou Iceberg + Spark pour les organisations avec plus de 10TB/j ou des besoins ML intensifs. Plus complexe mais cout reduit a grande echelle vs Snowflake
  • DuckDB 2025 - emergence comme moteur analytique local. Remplace pandas pour l analytique, S3 direct, MotherDuck pour le cloud
  • GenAI dans la stack - assistants SQL (Hex, Mode), data catalogs avec recherche semantique, agents data entrent dans les stacks 2025
  • Data Mesh - pertinent uniquement si l organisation a plus de 200 personnes data avec des domaines metier autonomes. Transformation organisationnelle d abord

7Grille par niveau

NiveauMaitriseSignal GONO-GO
ConfirméConnaît les composants MDS, a déployé au moins une stack complèteDécrit une stack qu il a mise en production, justifie ses choix d outilsNe connaît qu un seul outil par couche sans savoir les alternatives
SeniorCompare MDS vs Lakehouse, sait quand utiliser quoiJustifie le choix selon le volume, le budget et la maturité équipeRecommande la même stack pour tous les contextes
LeadArchitecture complète avec gouvernance, trade-offs maîtrisésA fait évoluer une stack, sait quand migrer et commentNe peut pas expliquer pourquoi le Data Mesh n est pas adapté à une petite équipe

Vous recrutez un Data Architect ou Lead ?

Premier entretien gratuit. Rapport GO/NO-GO sous 48h.