AccueilBlogTest technique Data Gouvernance : catalogue, lineage, qualité, RGPD
Guide recrutement data

Test technique Data Gouvernance : catalogue, lineage, qualité, RGPD

La gouvernance des données est devenue un enjeu critique. En entretien Analytics Engineer ou Data Architect, on évalue la capacité à structurer la qualité, la traçabilité et la conformité des données à l'échelle.

Data Builder·Juin 2025·8 min de lecture·Analytics Engineer · Data Architect
Sommaire
  1. Catalogue de données
  2. Data lineage
  3. Qualité des données
  4. Master Data Management
  5. RGPD et conformité
  6. Outils et stack
  7. Grille par niveau

La gouvernance des données n'est pas une contrainte administrative — c'est ce qui permet aux équipes data de scaler sans chaos. Sans gouvernance, chaque projet repart de zéro, les définitions de métriques divergent, et la confiance dans les données s'effondre.

1Catalogue de données

Question discriminante

Quelle est la différence entre un catalogue de données technique et un catalogue de données business ? Avez-vous déjà mis en place un catalogue ?

dbt comme point d'entrée : pour les équipes analytics, le dbt project (avec les descriptions YAML) est souvent le premier catalogue naturel. dbt docs génère automatiquement une documentation navigable avec le lineage SQL.

2Data lineage : tracer la donnée de la source au dashboard

Question discriminante

Qu'est-ce que le data lineage ? Donnez un exemple concret de cas où il vous a été utile.

# dbt : le lineage est calculé automatiquement depuis les refs -- models/marts/finance/fct_revenue.sql SELECT o.order_id, o.created_at, c.customer_segment, p.product_category, o.amount FROM {{ ref('stg_orders') }} o -- source tracée JOIN {{ ref('dim_customers') }} c ON o.customer_id = c.customer_id JOIN {{ ref('dim_products') }} p ON o.product_id = p.product_id

3Qualité des données : mesurer et monitorer

Question discriminante

Quelles sont les dimensions de la qualité des données ? Comment les mesurez-vous automatiquement dans vos pipelines ?

DimensionDéfinitionExemple de test
Complétude% de valeurs non-nullnot_null sur les colonnes critiques
ExactitudeConformité aux valeurs attenduesaccepted_values, plages de valeurs
FraîcheurAge des données par rapport à l'attendusource_freshness dans dbt
UnicitéAbsence de doublons sur les clésunique sur les PKs
CohérenceCohérence entre tables liéesrelationships test dans dbt
ValiditéRespect du schéma et des formatsSchema validation, regex tests

4Master Data Management (MDM)

Question discriminante

Qu'est-ce que le Master Data Management ? Donnez un exemple de problème que le MDM résout.

5RGPD et conformité des données

Question discriminante

Comment gérez-vous le droit à l'effacement RGPD dans un data lake ? Quelles sont les techniques d'anonymisation que vous utilisez ?

6Stack gouvernance typique en 2025

7Grille par niveau

NiveauMaîtrise attendueSignal GONO-GO
ConfirméTests dbt, catalogue basique, classification des donnéesA implémenté not_null/unique/accepted_values, a documenté ses modèles dbtNe sait pas ce qu'est un data lineage, n'a jamais écrit de tests sur ses données
SeniorDataHub/OpenMetadata, Great Expectations, column-level lineage, RGPD pratiqueA mis en place DataHub, a géré un droit à l'effacement RGPD, connaît la pseudonymisationNe sait pas comment gérer le droit à l'effacement dans un data lake
LeadArchitecture gouvernance complète, MDM, data contracts, standards d'équipeA défini la stratégie gouvernance de son organisation, a mis en place des data contractsNe peut pas expliquer la différence entre anonymisation et pseudonymisation

Vous recrutez un Analytics Engineer ou Data Architect ?

Premier entretien gratuit. Rapport GO/NO-GO sous 48h.