Test technique Databricks : Unity Catalog, Jobs, MLflow, Lakehouse

Databricks est la plateforme lakehouse de reference. En entretien, on evalue la maitrise de Unity Catalog pour la gouvernance, des Jobs pour l orchestration et de l integration avec MLflow.

Data Builder·Juin 2025·6 min de lecture·Data Engineer · Data Scientist

Sommaire

Unity Catalog
Databricks Jobs et Workflows
Delta Live Tables
MLflow integre
Optimisation compute
Serverless et cost
Grille

1Unity Catalog : gouvernance centralisee

Question discriminante

Qu est-ce que Unity Catalog ? En quoi remplace-t-il le Hive Metastore ?

Unity Catalog — metastore unifie pour tous les assets Databricks : tables Delta, fichiers, modeles ML, notebooks, dashboards
3 niveaux — Catalog > Schema > Table. Une workspace peut acceder a plusieurs catalogs
Column-level security — masquer des colonnes selon le role de l utilisateur. Avec le Hive Metastore, c etait seulement au niveau de la table
Row filters — appliquer des filtres de securite au niveau des lignes
Data lineage — trace automatiquement le lineage jusqu a la colonne entre notebooks, jobs et tables

2Jobs et Workflows : orchestration Databricks

Question discriminante

Dans quel cas utilisez-vous Databricks Jobs plutot qu Airflow pour orchestrer vos pipelines ?

# Configuration d un Job multi-tasks via Python SDK
from databricks.sdk import WorkspaceClient
from databricks.sdk.service import jobs

w = WorkspaceClient()

job = w.jobs.create(
    name='pipeline_ventes',
    tasks=[
        jobs.Task(
            task_key='ingestion',
            notebook_task=jobs.NotebookTask(notebook_path='/pipelines/ingest'),
            new_cluster=jobs.ClusterSpec(spark_version='13.3.x-scala2.12',
                                         node_type_id='i3.xlarge', num_workers=2)
        ),
        jobs.Task(
            task_key='transformation',
            depends_on=[jobs.TaskDependency(task_key='ingestion')],
            notebook_task=jobs.NotebookTask(notebook_path='/pipelines/transform')
        )
    ]
)

3Delta Live Tables : pipelines declaratifs

Question discriminante

Quelle est la difference entre une DLT table LIVE et une table STREAMING LIVE ?

import dlt
from pyspark.sql.functions import col

# Table batch (refreshed a chaque run)
@dlt.table(comment='Commandes nettoyees')
def orders_clean():
    return (
        dlt.read('orders_raw')
        .filter(col('amount') > 0)
        .dropDuplicates(['order_id'])
    )

# Table streaming (incremental)
@dlt.table(comment='Evenements temps reel')
def events_stream():
    return (
        spark.readStream.format('kafka')
        .option('subscribe', 'events')
        .load()
    )

LIVE TABLE — rafraichie entierement a chaque run. Pour les donnees batch
STREAMING LIVE TABLE — traitement incremental. Pour Kafka, Kinesis, evenements continus
Avantage DLT — Databricks gere automatiquement les dependances, les retentatives et la qualite des donnees

4MLflow integre dans Databricks

Question discriminante

Comment utilisez-vous le MLflow Managed dans Databricks par rapport au MLflow open source ?

Tracking server manage — stockage automatique dans le workspace Databricks. Pas besoin de configurer un serveur
Model Registry — promouvoir un modele de Staging a Production. Acces via Unity Catalog (Databricks 13+)
Auto logging — mlflow.autolog() capture automatiquement les parametres, metriques et artefacts pour sklearn, XGBoost, PyTorch
Serving — deployer un modele comme endpoint REST depuis le Model Registry en un clic

5Optimisation compute

Question discriminante

Comment reduisez-vous les couts compute Databricks ?

Spot instances — utiliser les instance pools avec des noeuds spot/preemptibles. 60-80% moins cher pour les jobs batch
Auto-scaling — cluster qui scale entre min et max workers selon la charge
Job clusters vs Interactive — toujours utiliser des job clusters pour les pipelines en production (crees et detruits par job)
Photon engine — moteur vectorise natif Databricks. 2-5x plus rapide que Spark standard sur certaines requetes SQL

6Serverless : zero gestion d infrastructure

Serverless Compute — Databricks gere entierement l infrastructure. Pas de nodes a configurer
DBU Serverless — facturation a la seconde. Ideal pour les workloads intermittents
Serverless Jobs — executer des notebooks/DLT sans cluster. Startup en moins de 10 secondes
Serverless SQL — Databricks SQL Warehouse serverless pour les requetes analytiques rapides

7Grille par niveau

Niveau	Maitrise	Signal GO	NO-GO
Confirme	Notebooks, Jobs, Delta Lake, MLflow basique	A configure un Job multi-tasks, utilise auto-scaling, connait Unity Catalog	Ne sait pas ce qu est Unity Catalog
Senior	DLT, MLflow avance, Unity Catalog securite, optimisation couts	A deploye un pipeline DLT en production, configure le column-level security	N a jamais fait de DLT, ne connait pas le model serving Databricks

Vous recrutez un Data Engineer Databricks ?

Premier entretien gratuit. Rapport GO/NO-GO sous 48h.

Tester gratuitement Reserver un appel