Test technique Spark : ce qu'on evalue en entretien Data Engineer

Entre un profil qui a fait du Spark et un profil qui comprend pourquoi un job est lent, il y a un monde.

Data Builder·Juin 2025·8 min de lecture·Data Engineer

Sommaire

Transformations/actions
Lazy execution
RDD et stages
Partitionnement
Optimisation
Grille

Entre un profil qui "a fait du Spark" et un profil qui comprend pourquoi un job prend 4h au lieu de 20 minutes, il y a un monde.

1Transformations et actions

Question discriminante

Difference entre une transformation et une action dans Spark ?

Les transformations (filter, select, groupBy) sont paresseuses — elles construisent un plan sans rien calculer. Les actions (collect, count, write) declenchent l'execution.

Transformations narrow : filter, map, select — une partition independante
Transformations wide : groupBy, join, distinct — shuffle necessaire

2Lazy execution

Question discriminante

Pourquoi Spark utilise la lazy execution ? Quel avantage concret ?

# Ces transformations ne calculent rien
df_filtered = df.filter(df.montant > 100)
df_grouped = df_filtered.groupBy("region").sum("montant")
# Ici seulement Spark execute et optimise le plan
df_grouped.show()

Catalyst Optimizer — reorganise, fusionne, elimine les calculs inutiles
cache() — persister un DataFrame pour eviter de le recalculer

3RDD, stages et tasks

Question discriminante Senior

Qu'est-ce qu'un RDD ? Comment stages et tasks s'articulent avec les shuffles ?

Stages — separes par les shuffles (groupBy, join)
Tasks — une task = une partition = un thread executor
Spark UI — identifier les stages lents et les data skews

4Partitionnement et shuffles

Question discriminante

Une partition est 100x plus grosse que les autres. Que se passe-t-il ?

Data skew — principale cause de jobs lents
Broadcast join — pour les petites tables, evite un shuffle complet
repartition vs coalesce — avec vs sans shuffle
Salting — distribuer les cles skewed

5Cluster et optimisation

Question discriminante Senior

Comment dimensionnez-vous les ressources d'un job Spark ?

Spill to disk — signal de manque de memoire
AQE (Adaptive Query Execution) — Spark 3, ajustement dynamique
Delta Lake / Iceberg — formats transactionnels

6Grille par niveau

Niveau	Maitrise attendue	Signal GO	NO-GO
Junior	DataFrames, transformations/actions, Parquet	Explique transformations vs actions	Ne sait pas ce qu'est la lazy execution
Confirme	Partitionnement, cache, broadcast join, Spark UI	A corrige un probleme de performance	N'a jamais ouvert le Spark UI
Senior	Internals, AQE, dimensionnement cluster, Delta Lake	A resolu un data skew en production	Ne peut pas expliquer ce qu'est un shuffle
Lead	Architecture streaming, optimisation avancee	A designe une architecture Spark Streaming	Ne connait pas AQE

Vous recrutez un profil data ?

Premier entretien gratuit. Rapport GO/NO-GO sous 48h.

Tester gratuitement Reserver un appel