Test technique Azure Data Factory : pipelines, triggers, DataFlow

Azure Data Factory est l orchestrateur ETL de référence dans l écosystème Microsoft. En entretien, on évalue la capacité à concevoir des pipelines robustes et à les intégrer dans une architecture Azure.

Data Builder·Juin 2025·6 min de lecture·Data Engineer

Sommaire

Concepts fondamentaux ADF
Pipelines et activités
Linked Services et Datasets
Triggers
Mapping Data Flow
ADF vs Synapse vs Fabric
Grille

1Concepts fondamentaux ADF

Question discriminante

Quels sont les 4 composants principaux d Azure Data Factory ?

Pipelines — workflows d activités, équivalent d un DAG Airflow
Activities — chaque étape : Copy Data, Data Flow, Stored Procedure, Web Activity, Databricks Notebook
Linked Services — connexions aux sources et destinations (SQL Server, Blob Storage, REST API, Snowflake...)
Datasets — représentation d une structure de données dans un Linked Service (table SQL, fichier CSV...)
Integration Runtime — moteur d exécution : Azure IR (cloud), Self-hosted IR (on-premise), SSIS IR

2Pipelines : orchestration des activités

Question discriminante

Comment gérez-vous les dépendances entre activités dans ADF ? Et les erreurs ?

// Structure d un pipeline ADF typique (JSON ARM template)
{
  'name': 'pipeline_ingestion_ventes',
  'activities': [
    {
      'name': 'CopyFromSource',
      'type': 'Copy',
      'dependsOn': [],
      'inputs': [{'referenceName': 'SourceDataset'}],
      'outputs': [{'referenceName': 'StagingDataset'}]
    },
    {
      'name': 'TransformData',
      'type': 'DatabricksNotebook',
      'dependsOn': [{
        'activity': 'CopyFromSource',
        'dependencyConditions': ['Succeeded']  // ou Failed, Skipped, Completed
      }]
    },
    {
      'name': 'OnFailure_Alert',
      'type': 'WebActivity',
      'dependsOn': [{
        'activity': 'TransformData',
        'dependencyConditions': ['Failed']
      }]
    }
  ]
}

dependencyConditions — Succeeded, Failed, Skipped, Completed. Permet de créer des branches conditionnelles
Try-Catch — activer une alerte en cas d échec via WebActivity (webhook Slack/Teams)

3Linked Services et paramétrage

Question discriminante

Comment évitez-vous de dupliquer vos Linked Services pour DEV/PROD ?

Parameters — paramétrer les Linked Services avec des variables d environnement
Azure Key Vault — stocker les credentials dans Key Vault, ADF y accède via Managed Identity. Jamais de mot de passe en dur
Global Parameters — paramètres partagés par tous les pipelines (environnement, date de référence)
Managed Identity — ADF s authentifie sur les services Azure sans stocker de credentials

4Triggers : déclencher les pipelines

Question discriminante

Quels types de triggers ADF connaissez-vous ? Dans quel cas utilisez-vous chacun ?

Trigger	Déclenchement	Cas d usage
Schedule	CRON planifié	Rafraîchissement quotidien, rapports hebdomadaires
Tumbling Window	Fenêtres fixes, backfill possible	Traitement par tranches horaires, avec retry et dépendances
Event-based	Arrivée d un fichier dans Blob Storage	Ingestion déclenchée par l arrivée de fichiers partenaires
Manual	Déclenchement manuel ou via API REST	Tests, reprises, triggers depuis une autre application

5Mapping Data Flow : transformation visuelle

Question discriminante

Quand utilisez-vous Mapping Data Flow plutôt qu une activité Databricks ?

Mapping Data Flow — transformation de données en mode no-code/low-code dans ADF. S exécute sur Spark managé
Cas d usage — transformations standard (filtres, jointures, pivots, aggrégations) sans expertise Spark
Limites — moins flexible qu un notebook Databricks, plus cher à l exécution que du SQL natif
Databricks Activity — préférer pour la logique complexe, le ML, ou quand l équipe maîtrise Python/Spark
Stored Procedure — préférer pour les transformations SQL natives dans Azure SQL ou Synapse

6ADF vs Azure Synapse vs Microsoft Fabric

Question discriminante

Comment positionnez-vous ADF, Synapse et Fabric ?

Service	Rôle	Idéal pour
Azure Data Factory	Orchestration ETL/ELT pure	Ingestion et mouvement de données, intégration d outils tiers
Azure Synapse	Analytics + intégration + Spark	SQL Analytics + pipelines Spark dans une interface unifiée
Microsoft Fabric	Plateforme unifiée Microsoft	Nouvelle stack end-to-end (Power BI + Synapse + ADF) sur OneLake

Tendance 2025 : Microsoft pousse vers Fabric comme plateforme unifiée. ADF reste pertinent pour les intégrations avec des systèmes non-Microsoft.

7Grille par niveau

Niveau	Maitrise	Signal GO	NO-GO
Confirmé	Pipelines, Copy Activity, Schedule Trigger, Key Vault	A déployé un pipeline Copy + transformation, utilise Key Vault	Stocke les mots de passe en dur dans les Linked Services
Senior	Tumbling Window, Event Trigger, Mapping Data Flow, ARM templates	A configuré un Event Trigger, déploie via ARM/CI-CD, justifie ADF vs Databricks	Ne sait pas la différence entre Schedule et Tumbling Window

Vous recrutez un Data Engineer Azure ?

Premier entretien gratuit. Rapport GO/NO-GO sous 48h.

Tester gratuitement Reserver un appel