Databricks est la plateforme lakehouse de reference. En entretien, on evalue la maitrise de Unity Catalog pour la gouvernance, des Jobs pour l orchestration et de l integration avec MLflow.
Qu est-ce que Unity Catalog ? En quoi remplace-t-il le Hive Metastore ?
Dans quel cas utilisez-vous Databricks Jobs plutot qu Airflow pour orchestrer vos pipelines ?
# Configuration d un Job multi-tasks via Python SDK
from databricks.sdk import WorkspaceClient
from databricks.sdk.service import jobs
w = WorkspaceClient()
job = w.jobs.create(
name='pipeline_ventes',
tasks=[
jobs.Task(
task_key='ingestion',
notebook_task=jobs.NotebookTask(notebook_path='/pipelines/ingest'),
new_cluster=jobs.ClusterSpec(spark_version='13.3.x-scala2.12',
node_type_id='i3.xlarge', num_workers=2)
),
jobs.Task(
task_key='transformation',
depends_on=[jobs.TaskDependency(task_key='ingestion')],
notebook_task=jobs.NotebookTask(notebook_path='/pipelines/transform')
)
]
)Quelle est la difference entre une DLT table LIVE et une table STREAMING LIVE ?
import dlt
from pyspark.sql.functions import col
# Table batch (refreshed a chaque run)
@dlt.table(comment='Commandes nettoyees')
def orders_clean():
return (
dlt.read('orders_raw')
.filter(col('amount') > 0)
.dropDuplicates(['order_id'])
)
# Table streaming (incremental)
@dlt.table(comment='Evenements temps reel')
def events_stream():
return (
spark.readStream.format('kafka')
.option('subscribe', 'events')
.load()
)Comment utilisez-vous le MLflow Managed dans Databricks par rapport au MLflow open source ?
Comment reduisez-vous les couts compute Databricks ?
| Niveau | Maitrise | Signal GO | NO-GO |
|---|---|---|---|
| Confirme | Notebooks, Jobs, Delta Lake, MLflow basique | A configure un Job multi-tasks, utilise auto-scaling, connait Unity Catalog | Ne sait pas ce qu est Unity Catalog |
| Senior | DLT, MLflow avance, Unity Catalog securite, optimisation couts | A deploye un pipeline DLT en production, configure le column-level security | N a jamais fait de DLT, ne connait pas le model serving Databricks |
Premier entretien gratuit. Rapport GO/NO-GO sous 48h.