Stack data moderne 2025 : quelle architecture choisir ?

Modern Data Stack, Lakehouse, Data Mesh — le marché propose de nombreuses architectures. En entretien Lead ou Architect, on évalue la capacité à choisir la bonne selon le contexte.

Data Builder·Juin 2025·7 min de lecture·Data Architect · Data Engineer Lead

Sommaire

Modern Data Stack
Architecture Lakehouse
Data Mesh
Comparaison selon le contexte
Comment décider
Les outils de chaque stack
Grille

1Modern Data Stack : le standard des scale-ups

Question discriminante

Qu est-ce que la Modern Data Stack ? Quels sont ses composants types ?

Définition — stack cloud-native modulaire : un outil best-of-breed par couche, tous intégrés via API
Couches typiques :

Couche	Outils courants
Ingestion	Fivetran, Airbyte, Stitch
Stockage	Snowflake, BigQuery, Redshift
Transformation	dbt (standard de facto)
Orchestration	Airflow, Prefect, Dagster
BI	Looker, Metabase, Power BI
Observabilité	Monte Carlo, Elementary, Metaplane

Avantages — rapide à déployer, peu de maintenance infra, mise à l échelle automatique
Limites — coûts qui peuvent exploser à grande échelle, dépendance aux vendeurs SaaS

2Architecture Lakehouse

Question discriminante

Qu est-ce qu un Lakehouse ? En quoi combine-t-il Data Lake et Data Warehouse ?

Data Lake — stockage brut de tous les formats (Parquet, JSON, CSV) dans S3/GCS. Pas cher mais pas de ACID, pas de performance SQL
Data Warehouse — SQL performant, ACID, mais cher et fermé (Snowflake, BigQuery)
Lakehouse — combine les deux : stockage ouvert (S3/GCS) + couche transactionnelle (Delta Lake, Iceberg) + SQL performant. Databricks et Apache Iceberg sur AWS sont les références
Avantages — coût stockage réduit, pas de vendor lock-in, supporte ML et BI sur le même dataset
Limites — plus complexe à opérer qu un Data Warehouse managé

3Data Mesh : décentralisation

Question discriminante

Dans quelle situation le Data Mesh est-il pertinent ? Et quand est-il contre-productif ?

Pertinent — grande organisation (>500 personnes), multiples équipes autonomes, données qui appartiennent clairement à des domaines métier distincts
Contre-productif — petite équipe (<10 data), organisation centralisée, stack déjà simple et fonctionnelle
Prérequis organisationnels — chaque domaine doit avoir des Data Owners techniques. Sans ça, le Data Mesh crée du chaos

Erreur fréquente : adopter le Data Mesh parce que c est tendance, sans avoir les prérequis organisationnels. Le Data Mesh est une transformation culturelle avant d être une transformation technique.

4Comparaison selon la taille et le contexte

Contexte	Architecture recommandée	Pourquoi
Startup / PME, <5 data	Modern Data Stack simple (Airbyte + BigQuery + dbt + Metabase)	Rapide à déployer, peu de maintenance, coût maîtrisé
Scale-up, 5-20 data	MDS complète + observabilité	Volume croissant, besoin de fiabilité, équipe structurée
Grand groupe, >50 data	Lakehouse (Databricks ou Iceberg) ou MDS avec gouvernance	Volume important, coûts SaaS élevés, besoins ML
Très grande organisation, >200 data	Data Mesh si organisation le permet, sinon Lakehouse	Autonomie des domaines, impossibilité de centraliser

5Les vraies questions pour choisir

'Quel est le volume de données ?' — <1TB/jour : MDS SaaS suffit. >10TB/jour : Lakehouse à considérer
'Quelle est la maturité de l équipe ?' — équipe junior : MDS managée. équipe Senior : Lakehouse open source possible
'Quel est le budget ?' — Snowflake à grande échelle peut coûter très cher. Iceberg + S3 est moins cher mais plus complexe
'Quels sont les besoins ML ?' — si ML intensif : Lakehouse ou Databricks. Si seulement BI : MDS suffit
'Quelle indépendance vis-à-vis des vendeurs ?' — Iceberg + DuckDB/Spark = maximum de portabilité

6Les outils de chaque couche en 2025

Ingestion — Fivetran (best-in-class, cher), Airbyte (open source, flexible), Singer (minimal)
Transformation — dbt (standard), SQLMesh (concurrent montant), Spark pour les très gros volumes
Orchestration — Airflow (standard), Prefect (developer-friendly), Dagster (assets-based)
Stockage — BigQuery (GCP natif), Snowflake (multi-cloud, facile), Databricks (Lakehouse), DuckDB (local/analytique)
Catalogue — DataHub (LinkedIn, open source), OpenMetadata, Collibra (enterprise)

Modern Data Stack en 2025 - Fivetran/Airbyte + dbt + Snowflake/BigQuery + Looker/Metabase reste le standard pour les scale-ups. 6 semaines max pour avoir une stack fonctionnelle
Lakehouse - Databricks ou Iceberg + Spark pour les organisations avec > 10TB/j ou des besoins ML intensifs. Plus complexe a operer mais cout reduit vs Snowflake a grande echelle
Data Mesh - pertinent uniquement si l organisation a > 200 personnes data avec des domaines metier autonomes. La transformation organisationnelle precede la technique
DuckDB 2025 - emergence comme moteur analytique local et pour les petites stacks. Remplace pandas pour l analytique, S3 direct, MotherDuck pour le cloud
GenAI dans la stack - les assistants SQL (Hex, Mode, Databricks AI), les data catalogs avec recherche semantique, et les agents data entrent dans les stacks 2025

Modern Data Stack - Fivetran/Airbyte + dbt + Snowflake/BigQuery + Looker/Metabase reste le standard pour les scale-ups. 6 semaines max pour une stack fonctionnelle
Lakehouse - Databricks ou Iceberg + Spark pour les organisations avec plus de 10TB/j ou des besoins ML intensifs. Plus complexe mais cout reduit a grande echelle vs Snowflake
DuckDB 2025 - emergence comme moteur analytique local. Remplace pandas pour l analytique, S3 direct, MotherDuck pour le cloud
GenAI dans la stack - assistants SQL (Hex, Mode), data catalogs avec recherche semantique, agents data entrent dans les stacks 2025
Data Mesh - pertinent uniquement si l organisation a plus de 200 personnes data avec des domaines metier autonomes. Transformation organisationnelle d abord

7Grille par niveau

Niveau	Maitrise	Signal GO	NO-GO
Confirmé	Connaît les composants MDS, a déployé au moins une stack complète	Décrit une stack qu il a mise en production, justifie ses choix d outils	Ne connaît qu un seul outil par couche sans savoir les alternatives
Senior	Compare MDS vs Lakehouse, sait quand utiliser quoi	Justifie le choix selon le volume, le budget et la maturité équipe	Recommande la même stack pour tous les contextes
Lead	Architecture complète avec gouvernance, trade-offs maîtrisés	A fait évoluer une stack, sait quand migrer et comment	Ne peut pas expliquer pourquoi le Data Mesh n est pas adapté à une petite équipe

1Modern Data Stack: the standard for scale-ups

Discriminating question

What is the Modern Data Stack? What are its typical components?

Definition — modular cloud-native stack: one best-of-breed tool per layer, all integrated via API
Typical layers:

Layer	Common tools
Ingestion	Fivetran, Airbyte, Stitch
Storage	Snowflake, BigQuery, Redshift
Transformation	dbt (de facto standard)
Orchestration	Airflow, Prefect, Dagster
BI	Looker, Metabase, Power BI
Observability	Monte Carlo, Elementary, Metaplane

Advantages — fast to deploy, low infra maintenance, automatic scaling
Limitations — costs that can explode at large scale, dependency on SaaS vendors

2Lakehouse Architecture

Discriminating question

What is a Lakehouse? How does it combine Data Lake and Data Warehouse?

Data Lake — raw storage of all formats (Parquet, JSON, CSV) in S3/GCS. Cheap but no ACID, no SQL performance
Data Warehouse — high-performance SQL, ACID, but expensive and closed (Snowflake, BigQuery)
Lakehouse — combines both: open storage (S3/GCS) + transactional layer (Delta Lake, Iceberg) + high-performance SQL. Databricks and Apache Iceberg on AWS are the references
Advantages — reduced storage cost, no vendor lock-in, supports ML and BI on the same dataset
Limitations — more complex to operate than a managed Data Warehouse

3Data Mesh: decentralization

Discriminating question

In what situation is Data Mesh relevant? And when is it counterproductive?

Relevant — large organization (>500 people), multiple autonomous teams, data that clearly belongs to distinct business domains
Counterproductive — small team (<10 data), centralized organization, stack already simple and functional
Organizational prerequisites — each domain must have technical Data Owners. Without this, Data Mesh creates chaos

Common mistake: adopting Data Mesh because it is trendy, without having the organizational prerequisites. Data Mesh is a cultural transformation before being a technical transformation.

4Comparison by size and context

Context	Recommended architecture	Why
Startup / SMB, <5 data	Simple Modern Data Stack (Airbyte + BigQuery + dbt + Metabase)	Fast to deploy, low maintenance, controlled cost
Scale-up, 5-20 data	Full MDS + observability	Growing volume, need for reliability, structured team
Large enterprise, >50 data	Lakehouse (Databricks or Iceberg) or MDS with governance	High volume, high SaaS costs, ML needs
Very large organization, >200 data	Data Mesh if organization allows it, otherwise Lakehouse	Domain autonomy, impossibility of centralizing

5The real questions for choosing

'What is the data volume?' — <1TB/day: SaaS MDS is sufficient. >10TB/day: Lakehouse to consider
'What is the team maturity?' — junior team: managed MDS. Senior team: open source Lakehouse possible
'What is the budget?' — Snowflake at large scale can be very expensive. Iceberg + S3 is cheaper but more complex
'What are the ML needs?' — if intensive ML: Lakehouse or Databricks. If BI only: MDS is sufficient
'What level of vendor independence?' — Iceberg + DuckDB/Spark = maximum portability

6Tools for each layer in 2025

Ingestion — Fivetran (best-in-class, expensive), Airbyte (open source, flexible), Singer (minimal)
Transformation — dbt (standard), SQLMesh (rising competitor), Spark for very large volumes
Orchestration — Airflow (standard), Prefect (developer-friendly), Dagster (assets-based)
Storage — BigQuery (GCP native), Snowflake (multi-cloud, easy), Databricks (Lakehouse), DuckDB (local/analytical)
Catalog — DataHub (LinkedIn, open source), OpenMetadata, Collibra (enterprise)

Modern Data Stack in 2025 - Fivetran/Airbyte + dbt + Snowflake/BigQuery + Looker/Metabase remains the standard for scale-ups. 6 weeks max to have a functional stack
Lakehouse - Databricks or Iceberg + Spark for organizations with >10TB/day or intensive ML needs. More complex to operate but reduced cost vs Snowflake at large scale
Data Mesh - relevant only if the organization has >200 data people with autonomous business domains. Organizational transformation precedes the technical one
DuckDB 2025 - emergence as a local analytical engine and for small stacks. Replaces pandas for analytics, direct S3, MotherDuck for the cloud
GenAI in the stack - SQL assistants (Hex, Mode, Databricks AI), data catalogs with semantic search, and data agents are entering 2025 stacks

Modern Data Stack - Fivetran/Airbyte + dbt + Snowflake/BigQuery + Looker/Metabase remains the standard for scale-ups. 6 weeks max for a functional stack
Lakehouse - Databricks or Iceberg + Spark for organizations with more than 10TB/day or intensive ML needs. More complex but reduced cost at large scale vs Snowflake
DuckDB 2025 - emergence as a local analytical engine. Replaces pandas for analytics, direct S3, MotherDuck for the cloud
GenAI in the stack - SQL assistants (Hex, Mode), data catalogs with semantic search, data agents entering 2025 stacks
Data Mesh - relevant only if the organization has more than 200 data people with autonomous business domains. Organizational transformation first

7Grid by level

Level	Mastery	GO signal	NO-GO
Mid-level	Knows MDS components, has deployed at least one complete stack	Describes a stack they put into production, justifies their tool choices	Only knows one tool per layer without knowing the alternatives
Senior	Compares MDS vs Lakehouse, knows when to use which	Justifies the choice based on volume, budget and team maturity	Recommends the same stack for all contexts
Lead	Complete architecture with governance, trade-offs mastered	Has evolved a stack, knows when to migrate and how	Cannot explain why Data Mesh is not suitable for a small team

Vous recrutez un Data Architect ou Lead ?

Premier entretien gratuit. Rapport GO/NO-GO sous 48h.

Tester gratuitement Reserver un appel