Azure Synapse Analytics unifie SQL analytique et Spark dans une même plateforme. En entretien, on évalue la capacité à choisir le bon pool selon le cas d usage.
Quels sont les 3 moteurs de calcul dans Azure Synapse ? Quand utilisez-vous chacun ?
Comment optimisez-vous les performances d un Dedicated SQL Pool ?
-- Distribution des tables : clé de performance critique
-- HASH : distribuer selon une colonne de jointure fréquente
CREATE TABLE fct_orders
WITH (
DISTRIBUTION = HASH(customer_id), -- évite le data shuffle sur les jointures
CLUSTERED COLUMNSTORE INDEX -- optimal pour les requêtes analytiques
)
AS SELECT * FROM source_table;
-- ROUND_ROBIN : pour les tables de staging
CREATE TABLE stg_orders_raw
WITH (DISTRIBUTION = ROUND_ROBIN)
AS SELECT * FROM ...
-- Statistics : mettre à jour après chargement
UPDATE STATISTICS fct_orders;
-- Pause automatique (économie de coûts)
ALTER DATABASE mydw PAUSE; -- via PowerShell ou ADFComment requêtez-vous des fichiers Parquet dans ADLS avec le Serverless SQL Pool ?
-- Requête directe sur des fichiers Parquet dans ADLS
SELECT
year,
region,
SUM(amount) as revenue
FROM
OPENROWSET(
BULK 'https://monstorage.dfs.core.windows.net/datalake/orders/**',
FORMAT = 'PARQUET'
) AS orders
WHERE year = 2024
GROUP BY year, region;
-- Créer une vue externe (évite de répéter OPENROWSET)
CREATE OR ALTER VIEW vw_orders AS
SELECT *
FROM OPENROWSET(
BULK 'https://monstorage.dfs.core.windows.net/datalake/orders/**',
FORMAT = 'PARQUET'
) AS r;
-- Requête sur Delta Lake
SELECT TOP 100 *
FROM
OPENROWSET(
BULK 'https://monstorage.dfs.core.windows.net/datalake/delta/orders',
FORMAT = 'DELTA'
) AS delta_orders;Dans quel cas utilisez-vous le Spark Pool plutôt que le SQL Pool dans Synapse ?
Comment organisez-vous votre Data Lake dans ADLS pour une utilisation avec Synapse ?
Comment positionnez-vous Synapse, Databricks et Fabric ?
| Azure Synapse | Databricks | Microsoft Fabric | |
|---|---|---|---|
| SQL analytique | Excellent (MPP natif) | Bon (SQL Warehouse) | Excellent (OneLake) |
| Spark | Bon | Excellent (optimisé) | Bon |
| ML/AI | Partiel | Excellent (MLflow natif) | Partiel |
| Intégration Microsoft | Natif | Bonne | Natif (Power BI) |
| Tendance 2025 | Mature, remplacé par Fabric | Standard ML enterprise | Nouveau, stratégie Microsoft |
| Niveau | Maitrise | Signal GO | NO-GO |
|---|---|---|---|
| Confirmé | Serverless SQL Pool, Dedicated Pool basique, ADLS | A requêté des Parquet avec OPENROWSET, comprend les 3 pools | Ne sait pas la différence entre Serverless et Dedicated |
| Senior | Distribution HASH, Spark Pool, Delta Lake, comparaison Synapse/Databricks | A optimisé un Dedicated Pool (distribution, statistics), justifie Synapse vs Databricks | Ne sait pas ce qu est la distribution HASH |
Premier entretien gratuit. Rapport GO/NO-GO sous 48h.