Accueil›Blog›Test technique Delta Lake vs Apache Iceberg : le choix du table format
Guide recrutement data
Test technique Delta Lake vs Apache Iceberg : le choix du table format
Delta Lake, Iceberg et Hudi sont les trois table formats open source qui apportent ACID au data lake. En 2025, ce choix architectural est systematiquement evalue en entretien Data Engineer Senior.
Data Builder·Juin 2025·7 min de lecture·Data Engineer
1Les limites du Parquet sans table format
Question discriminante
Pourquoi Parquet seul ne suffit pas pour un data lake de production ?
- Pas d ACID — deux jobs qui ecrivent en meme temps peuvent corrompre les donnees
- Pas de rollback — si un job echoue a mi-parcours, les donnees sont dans un etat incoherent
- Schema evolution fragile — ajouter une colonne peut casser les readers existants
- Pas de upsert natif — mettre a jour une ligne dans Parquet = réécrire toute la partition
- Pas de time travel — impossible de requeter les donnees d hier sans les avoir sauvegardees separement
2Delta Lake : le standard Databricks/Microsoft
Question discriminante
Quels sont les 3 composants principaux de Delta Lake ?
- Transaction Log — fichier _delta_log/ qui trace toutes les operations (commits). Source de verite pour ACID et time travel
- OPTIMIZE + ZORDER — compacter les petits fichiers et co-localiser les donnees frequemment requetees ensemble
- Auto Optimize — compaction automatique dans Databricks. Elimine les petits fichiers crees par le streaming
- Ecosystem — natif Databricks, supporte par Spark, PySpark. De plus en plus supporte en dehors de Databricks (Trino, Flink)
3Apache Iceberg : le standard multi-engine
Question discriminante
En quoi Iceberg est-il superieur a Delta Lake pour les environnements multi-engine ?
- Ouvert et portable — supporte nativement par Spark, Trino, Flink, Hive, Dremio, Athena (AWS), BigQuery. Pas de dependance a un vendeur
- Partition evolution — changer le schema de partitionnement sans réécrire les donnees. Delta Lake ne le permet pas nativement
- Hidden partitioning — les users n ont pas besoin de connaitre la structure de partition pour ecrire des requetes efficaces
- Catalog — Iceberg Catalog (REST, Hive, Glue, Nessie). Metadata centralisee pour la gouvernance
- Adoption 2025 — AWS, Google Cloud et Azure supportent Iceberg nativement. Tendance forte
4Apache Hudi : le specialiste du CDC
Question discriminante
Quand utilisez-vous Hudi plutot que Delta ou Iceberg ?
- Hudi — optimise pour les upserts frequents et le CDC (Change Data Capture). Deux types de tables : COW (Copy-on-Write) et MOR (Merge-on-Read)
- COW — réécrire les fichiers a chaque update. Lecture rapide, ecriture lente
- MOR — ecrire les updates dans des fichiers delta, merger a la lecture. Ecriture rapide, lecture plus lente
- Cas d usage — pipelines de CDC depuis des bases transactionnelles (Debezium + Hudi), donnees qui changent souvent
5Comparaison des trois formats
| Delta Lake | Iceberg | Hudi |
|---|
| ACID | Oui | Oui | Oui |
| Time Travel | Oui (delta_log) | Oui (snapshots) | Oui (commits) |
| Partition Evolution | Limitee | Complete | Limitee |
| Multi-engine | Moyen (Databricks-centric) | Excellent | Bon |
| Upsert/CDC | Bon (MERGE) | Bon | Excellent (MOR) |
| Ecosysteme cloud | Azure (Fabric), Databricks | AWS, GCP, Azure | AWS EMR |
6Comment choisir en pratique
- Stack Databricks ou Azure → Delta Lake. Natif, tres bien integre
- Multi-cloud, multi-engine, independance vendeur → Iceberg. Standard emergent
- CDC intensif depuis bases transactionnelles → Hudi. Upserts optimises
- Greenfield 2025 → Iceberg. L ecosysteme converge vers Iceberg comme standard ouvert
Tendance 2025 : Delta Lake et Hudi ont annonce la compatibilite avec le format Iceberg. La guerre des formats est en train de se terminer en faveur d Iceberg comme standard de lecture.
7Grille par niveau
| Niveau | Maitrise | Signal GO | NO-GO |
|---|
| Confirme | Delta Lake ou Iceberg, ACID, Time Travel, MERGE | Explique pourquoi Parquet seul ne suffit pas, a utilise Delta MERGE | Ne sait pas ce qu est un table format |
| Senior | Comparaison Delta/Iceberg/Hudi, choix selon le contexte | Justifie le choix du table format selon l ecosysteme, connait la partition evolution Iceberg | Ne connait qu un seul table format |
Vous recrutez un Data Engineer architecte lakehouse ?
Premier entretien gratuit. Rapport GO/NO-GO sous 48h.