AccueilBlogTest technique implémentation d un data catalog : DataHub, OpenMetadata
Guide recrutement data

Test technique implémentation d un data catalog : DataHub, OpenMetadata

Déployer un data catalog est un projet qui dure 6 mois si mal planifié. En entretien, on évalue la capacité à choisir le bon outil, à l intégrer avec la stack existante et à faire adopter le catalog par les équipes.

Data Builder·Juin 2025·6 min de lecture·Analytics Engineer · Data Architect
Sommaire
  1. Choisir son catalog
  2. DataHub : architecture
  3. OpenMetadata : alternative
  4. Ingestion des métadonnées
  5. Faire adopter le catalog
  6. Lineage automatique
  7. Grille

1Choisir entre DataHub, OpenMetadata, Collibra

Question discriminante

Comment choisissez-vous votre data catalog ?

OutilTypeForcesIdéal pour
DataHubOpen source (LinkedIn)Mature, lineage, APIs GraphQL, riche écosystèmeÉquipes techniques, stack diversifiée
OpenMetadataOpen sourceUI moderne, data quality intégrée, data contractsÉquipes qui veulent tout-en-un
CollibraEnterprise SaaSGouvernance avancée, stewardship, conformitéGrandes entreprises réglementées
AtlanSaaSUX excellente, intégrations facilesÉquipes qui veulent démarrer vite

2DataHub : architecture et déploiement

Question discriminante

Comment est architecturé DataHub ? Comment le déployez-vous ?

## Déploiement DataHub avec Docker Compose (dev) datahub docker quickstart # Démarre : GMS (Graph Metadata Service), Frontend, Kafka, Elasticsearch ## Production : Helm sur Kubernetes helm repo add datahub https://helm.datahubproject.io/ helm install datahub datahub/datahub \ --values datahub-values.yaml ## Ingestion depuis dbt # datahub-dbt.yaml source: type: dbt config: manifest_path: ./target/manifest.json catalog_path: ./target/catalog.json target_platform: snowflake enable_meta_mapping: true sink: type: datahub-rest config: server: http://datahub-gms:8080 # Lancer l ingestion datahub ingest -c datahub-dbt.yaml

3OpenMetadata : les différences clés

Question discriminante

Quelles sont les fonctionnalités qui différencient OpenMetadata de DataHub ?

4Ingestion automatique des métadonnées

Question discriminante

Comment configurez-vous l ingestion automatique depuis Snowflake, dbt et Airflow ?

## DataHub : ingestion Snowflake source: type: snowflake config: account_id: mon_compte username: datahub_user password: ${SNOWFLAKE_PASSWORD} database: PROD_DB warehouse: REPORTING_WH profiling: enabled: true # profilage des tables profile_table_level_only: false ## Ingestion Airflow (lineage des DAGs) source: type: airflow config: connection: conn_type: airflow dag_directory: /opt/airflow/dags ## Schedule : ingérer quotidiennement schedule: interval: '@daily' timezone: 'Europe/Paris'

5Faire adopter le catalog par les équipes

Question discriminante

Quelles sont les stratégies pour que les équipes utilisent vraiment le catalog ?

6Lineage automatique : les intégrations clés

Question discriminante

Quelles intégrations configurez-vous en priorité pour le lineage ?

7Grille par niveau

NiveauMaitriseSignal GONO-GO
ConfirméA utilisé un catalog, sait ce que le lineage apporteA configuré l ingestion dbt → DataHub, utilise le catalog pour l impact analysisNe sait pas ce qu est un data catalog
SeniorDéploiement DataHub/OpenMetadata, stratégie d adoption, lineage multi-sourcesA déployé un catalog en production, a défini une stratégie d adoptionNe peut pas expliquer comment faire adopter un catalog par les équipes

Vous recrutez un Analytics Engineer ou Data Architect ?

Premier entretien gratuit. Rapport GO/NO-GO sous 48h.