Déployer un data catalog est un projet qui dure 6 mois si mal planifié. En entretien, on évalue la capacité à choisir le bon outil, à l intégrer avec la stack existante et à faire adopter le catalog par les équipes.
Comment choisissez-vous votre data catalog ?
| Outil | Type | Forces | Idéal pour |
|---|---|---|---|
| DataHub | Open source (LinkedIn) | Mature, lineage, APIs GraphQL, riche écosystème | Équipes techniques, stack diversifiée |
| OpenMetadata | Open source | UI moderne, data quality intégrée, data contracts | Équipes qui veulent tout-en-un |
| Collibra | Enterprise SaaS | Gouvernance avancée, stewardship, conformité | Grandes entreprises réglementées |
| Atlan | SaaS | UX excellente, intégrations faciles | Équipes qui veulent démarrer vite |
Comment est architecturé DataHub ? Comment le déployez-vous ?
## Déploiement DataHub avec Docker Compose (dev)
datahub docker quickstart
# Démarre : GMS (Graph Metadata Service), Frontend, Kafka, Elasticsearch
## Production : Helm sur Kubernetes
helm repo add datahub https://helm.datahubproject.io/
helm install datahub datahub/datahub \
--values datahub-values.yaml
## Ingestion depuis dbt
# datahub-dbt.yaml
source:
type: dbt
config:
manifest_path: ./target/manifest.json
catalog_path: ./target/catalog.json
target_platform: snowflake
enable_meta_mapping: true
sink:
type: datahub-rest
config:
server: http://datahub-gms:8080
# Lancer l ingestion
datahub ingest -c datahub-dbt.yamlQuelles sont les fonctionnalités qui différencient OpenMetadata de DataHub ?
Comment configurez-vous l ingestion automatique depuis Snowflake, dbt et Airflow ?
## DataHub : ingestion Snowflake
source:
type: snowflake
config:
account_id: mon_compte
username: datahub_user
password: ${SNOWFLAKE_PASSWORD}
database: PROD_DB
warehouse: REPORTING_WH
profiling:
enabled: true # profilage des tables
profile_table_level_only: false
## Ingestion Airflow (lineage des DAGs)
source:
type: airflow
config:
connection:
conn_type: airflow
dag_directory: /opt/airflow/dags
## Schedule : ingérer quotidiennement
schedule:
interval: '@daily'
timezone: 'Europe/Paris'Quelles sont les stratégies pour que les équipes utilisent vraiment le catalog ?
Quelles intégrations configurez-vous en priorité pour le lineage ?
| Niveau | Maitrise | Signal GO | NO-GO |
|---|---|---|---|
| Confirmé | A utilisé un catalog, sait ce que le lineage apporte | A configuré l ingestion dbt → DataHub, utilise le catalog pour l impact analysis | Ne sait pas ce qu est un data catalog |
| Senior | Déploiement DataHub/OpenMetadata, stratégie d adoption, lineage multi-sources | A déployé un catalog en production, a défini une stratégie d adoption | Ne peut pas expliquer comment faire adopter un catalog par les équipes |
Premier entretien gratuit. Rapport GO/NO-GO sous 48h.