Accueil›Blog›Test technique implémentation d un data catalog : DataHub, OpenMetadata

Guide recrutement data

Test technique implémentation d un data catalog : DataHub, OpenMetadata

Déployer un data catalog est un projet qui dure 6 mois si mal planifié. En entretien, on évalue la capacité à choisir le bon outil, à l intégrer avec la stack existante et à faire adopter le catalog par les équipes.

Data Builder·Juin 2025·6 min de lecture·Analytics Engineer · Data Architect

Sommaire

Choisir son catalog
DataHub : architecture
OpenMetadata : alternative
Ingestion des métadonnées
Faire adopter le catalog
Lineage automatique
Grille

1Choisir entre DataHub, OpenMetadata, Collibra

Question discriminante

Comment choisissez-vous votre data catalog ?

Outil	Type	Forces	Idéal pour
DataHub	Open source (LinkedIn)	Mature, lineage, APIs GraphQL, riche écosystème	Équipes techniques, stack diversifiée
OpenMetadata	Open source	UI moderne, data quality intégrée, data contracts	Équipes qui veulent tout-en-un
Collibra	Enterprise SaaS	Gouvernance avancée, stewardship, conformité	Grandes entreprises réglementées
Atlan	SaaS	UX excellente, intégrations faciles	Équipes qui veulent démarrer vite

2DataHub : architecture et déploiement

Question discriminante

Comment est architecturé DataHub ? Comment le déployez-vous ?

## Déploiement DataHub avec Docker Compose (dev)
datahub docker quickstart
# Démarre : GMS (Graph Metadata Service), Frontend, Kafka, Elasticsearch

## Production : Helm sur Kubernetes
helm repo add datahub https://helm.datahubproject.io/
helm install datahub datahub/datahub \
  --values datahub-values.yaml

## Ingestion depuis dbt
# datahub-dbt.yaml
source:
  type: dbt
  config:
    manifest_path: ./target/manifest.json
    catalog_path: ./target/catalog.json
    target_platform: snowflake
    enable_meta_mapping: true

sink:
  type: datahub-rest
  config:
    server: http://datahub-gms:8080

# Lancer l ingestion
datahub ingest -c datahub-dbt.yaml

3OpenMetadata : les différences clés

Question discriminante

Quelles sont les fonctionnalités qui différencient OpenMetadata de DataHub ?

Data Quality intégrée — tests de qualité configurables directement dans l interface, sans Great Expectations séparé
Data Contracts — définir et enforcer des contrats directement dans le catalog
Collaboration — commentaires, @mentions, tâches sur les assets. Comme Notion pour la data
Profiling automatique — DataHub nécessite un ingestion connector séparé pour le profiling. OpenMetadata l intègre

4Ingestion automatique des métadonnées

Question discriminante

Comment configurez-vous l ingestion automatique depuis Snowflake, dbt et Airflow ?

## DataHub : ingestion Snowflake
source:
  type: snowflake
  config:
    account_id: mon_compte
    username: datahub_user
    password: ${SNOWFLAKE_PASSWORD}
    database: PROD_DB
    warehouse: REPORTING_WH
    profiling:
      enabled: true  # profilage des tables
      profile_table_level_only: false

## Ingestion Airflow (lineage des DAGs)
source:
  type: airflow
  config:
    connection:
      conn_type: airflow
    dag_directory: /opt/airflow/dags

## Schedule : ingérer quotidiennement
schedule:
  interval: '@daily'
  timezone: 'Europe/Paris'

5Faire adopter le catalog par les équipes

Question discriminante

Quelles sont les stratégies pour que les équipes utilisent vraiment le catalog ?

Problème à résoudre — ne pas déployer le catalog pour la gouvernance. Le déployer parce qu il résout le problème 'je ne sais pas d où vient cette donnée'
Quick wins — documenter les 10 tables les plus utilisées en semaine 1. Visibilité immédiate
Integration dans le workflow — lier le catalog dans les PRs dbt, dans les tickets, dans les dashboards
Data Stewards — désigner des responsables par domaine, pas attendre que tout le monde documente spontanément
Mesurer l adoption — traquer les vues, les recherches, les descriptions ajoutées. Ce qui se mesure s améliore

6Lineage automatique : les intégrations clés

Question discriminante

Quelles intégrations configurez-vous en priorité pour le lineage ?

dbt → DataHub — lineage complet des modèles, colonne par colonne. Premier à configurer
Airflow → DataHub — lineage des pipelines ETL. Quels DAGs alimentent quelles tables
Snowflake/BigQuery → DataHub — lineage des requêtes SQL en production. Capturé via Query History
Looker/Power BI → DataHub — quels dashboards consomment quelles tables. Lineage jusqu aux consommateurs finaux
Résultat — lineage complet source → ingestion → transformation dbt → warehouse → dashboard

7Grille par niveau

Niveau	Maitrise	Signal GO	NO-GO
Confirmé	A utilisé un catalog, sait ce que le lineage apporte	A configuré l ingestion dbt → DataHub, utilise le catalog pour l impact analysis	Ne sait pas ce qu est un data catalog
Senior	Déploiement DataHub/OpenMetadata, stratégie d adoption, lineage multi-sources	A déployé un catalog en production, a défini une stratégie d adoption	Ne peut pas expliquer comment faire adopter un catalog par les équipes

Vous recrutez un Analytics Engineer ou Data Architect ?

Premier entretien gratuit. Rapport GO/NO-GO sous 48h.

Tester gratuitement Reserver un appel