AccueilBlogTest technique Databricks : Unity Catalog, Jobs, MLflow, Lakehouse
Guide recrutement data

Test technique Databricks : Unity Catalog, Jobs, MLflow, Lakehouse

Databricks est la plateforme lakehouse de reference. En entretien, on evalue la maitrise de Unity Catalog pour la gouvernance, des Jobs pour l orchestration et de l integration avec MLflow.

Data Builder·Juin 2025·6 min de lecture·Data Engineer · Data Scientist
Sommaire
  1. Unity Catalog
  2. Databricks Jobs et Workflows
  3. Delta Live Tables
  4. MLflow integre
  5. Optimisation compute
  6. Serverless et cost
  7. Grille

1Unity Catalog : gouvernance centralisee

Question discriminante

Qu est-ce que Unity Catalog ? En quoi remplace-t-il le Hive Metastore ?

2Jobs et Workflows : orchestration Databricks

Question discriminante

Dans quel cas utilisez-vous Databricks Jobs plutot qu Airflow pour orchestrer vos pipelines ?

# Configuration d un Job multi-tasks via Python SDK from databricks.sdk import WorkspaceClient from databricks.sdk.service import jobs w = WorkspaceClient() job = w.jobs.create( name='pipeline_ventes', tasks=[ jobs.Task( task_key='ingestion', notebook_task=jobs.NotebookTask(notebook_path='/pipelines/ingest'), new_cluster=jobs.ClusterSpec(spark_version='13.3.x-scala2.12', node_type_id='i3.xlarge', num_workers=2) ), jobs.Task( task_key='transformation', depends_on=[jobs.TaskDependency(task_key='ingestion')], notebook_task=jobs.NotebookTask(notebook_path='/pipelines/transform') ) ] )

3Delta Live Tables : pipelines declaratifs

Question discriminante

Quelle est la difference entre une DLT table LIVE et une table STREAMING LIVE ?

import dlt from pyspark.sql.functions import col # Table batch (refreshed a chaque run) @dlt.table(comment='Commandes nettoyees') def orders_clean(): return ( dlt.read('orders_raw') .filter(col('amount') > 0) .dropDuplicates(['order_id']) ) # Table streaming (incremental) @dlt.table(comment='Evenements temps reel') def events_stream(): return ( spark.readStream.format('kafka') .option('subscribe', 'events') .load() )

4MLflow integre dans Databricks

Question discriminante

Comment utilisez-vous le MLflow Managed dans Databricks par rapport au MLflow open source ?

5Optimisation compute

Question discriminante

Comment reduisez-vous les couts compute Databricks ?

6Serverless : zero gestion d infrastructure

7Grille par niveau

NiveauMaitriseSignal GONO-GO
ConfirmeNotebooks, Jobs, Delta Lake, MLflow basiqueA configure un Job multi-tasks, utilise auto-scaling, connait Unity CatalogNe sait pas ce qu est Unity Catalog
SeniorDLT, MLflow avance, Unity Catalog securite, optimisation coutsA deploye un pipeline DLT en production, configure le column-level securityN a jamais fait de DLT, ne connait pas le model serving Databricks

Vous recrutez un Data Engineer Databricks ?

Premier entretien gratuit. Rapport GO/NO-GO sous 48h.