Accueil›Blog›Python data avancé

Guide recrutement data

Test technique Python data avancé : pandas, DuckDB, Polars, optimisation

Au-delà des bases de pandas, un Data Engineer Senior maîtrise la vectorisation, la gestion mémoire, et sait quand remplacer pandas par DuckDB ou Polars pour des performances 10x à 100x supérieures.

Data Builder·Juin 2025·9 min de lecture·Data Engineer · Data Scientist

Sommaire

pandas : pièges et anti-patterns
Optimisation mémoire
Vectorisation vs boucles
DuckDB : SQL sur DataFrames
Polars : le successeur de pandas ?
Profiling et diagnostic
Grille par niveau

Un Data Engineer qui utilise des boucles iterrows() sur des DataFrames pandas en production livre de la dette technique. Les pièges de performance, la vectorisation et la maîtrise de DuckDB ou Polars sont les vrais discriminants en entretien.

1pandas : les pièges classiques

Question discriminante

Quelle est la différence entre .loc, .iloc et .at ? Pourquoi faut-il absolument éviter iterrows() sur un grand DataFrame ?

# MAUVAIS : boucle Python sur un DataFrame (tres lent)
for index, row in df.iterrows():
    df.at[index, 'profit'] = row['revenue'] - row['cost']

# BON : vectorisation directe
df['profit'] = df['revenue'] - df['cost']

# BON : np.where pour les conditions simples
import numpy as np
df['tier'] = np.where(df['amount'] > 1000, 'gold',
             np.where(df['amount'] > 100, 'silver', 'bronze'))

# Selection par label vs position
df.loc[df['status'] == 'active', 'revenue']  # par label/condition
df.iloc[0:10, 2:5]                           # par position entiere
df.at[42, 'revenue']                         # acces scalaire rapide par label

iterrows() — itere en Python pur : 100x a 1000x plus lent que la vectorisation. Jamais en production
Vectorisation — operations sur toute la colonne en une instruction (C compile via NumPy)
apply() — plus flexible qu'une operation vectorisee, mais plus lent. Dernier recours
SettingWithCopyWarning — toujours travailler sur une copie explicite (.copy()) pour eviter les modifications silencieuses
Perf rule — vectorisation > np.where > pd.apply() > itertuples() > iterrows()

Signal GO Senior : le candidat cite spontanement iterrows() comme anti-pattern, explique la vectorisation et connait np.where.

2Optimisation memoire : reduire la taille des DataFrames

Question discriminante

Comment reduisez-vous la consommation memoire d'un DataFrame pandas de 3 Go ?

import pandas as pd

# Diagnostic memoire
print(df.memory_usage(deep=True).sum() / 1024**2, "MB")

# Reduction des types numeriques
df['age']    = df['age'].astype('int8')      # int64 -> int8  : 8x moins
df['score']  = df['score'].astype('float32') # float64 -> float32 : 2x moins
df['status'] = df['status'].astype('category') # string -> category : -80%
df['pays']   = df['pays'].astype('category')

# Types specifies a l'import (optimal)
df = pd.read_csv("data.csv", dtype={
    'age': 'int8',
    'status': 'category',
    'amount': 'float32'
})

# Lecture par chunks pour les tres gros fichiers
for chunk in pd.read_csv("big_file.csv", chunksize=100_000):
    process(chunk)

int64 → int8/int16/int32 — selon les valeurs min/max reelles de la colonne
float64 → float32 — precision reduite mais acceptable pour la majorite des analyses
string → category — essentiel pour les colonnes a faible cardinalite (status, pays, type). Peut reduire de 80% la memoire
Lecture par chunks — traiter les fichiers plus grands que la RAM en morceaux successifs

3Vectorisation et NumPy : pourquoi c'est plus rapide

Question discriminante

Expliquez pourquoi une operation vectorisee NumPy est 500x plus rapide qu'une boucle Python equivalente.

import numpy as np

# Boucle Python : ~5 secondes sur 1M de lignes
distances = []
for i in range(len(df)):
    d = np.sqrt(df['x'].iloc[i]**2 + df['y'].iloc[i]**2)
    distances.append(d)

# Vectorisation NumPy : ~10 millisecondes (500x plus rapide)
distances = np.sqrt(df['x']**2 + df['y']**2)

# pd.cut pour les decoupages en tranches
df['age_group'] = pd.cut(df['age'],
    bins=[0, 18, 35, 50, 100],
    labels=['junior', 'adulte', 'senior', 'aine']
)

Pourquoi vectorise est plus rapide — les operations vectorisees s'executent en C compile, sans l'overhead de l'interpreteur Python ni du dispatch de boucle
Parallelisme SIMD — NumPy exploite les instructions SIMD du processeur pour traiter plusieurs elements simultanement
pd.cut / pd.qcut — decoupage en tranches ou quantiles, vectorise nativement

4DuckDB : SQL sur des DataFrames et des fichiers Parquet

Question discriminante

Dans quel cas utilisez-vous DuckDB plutot que pandas ? Quelle est sa principale force sur les fichiers Parquet ?

import duckdb

# DuckDB lit directement les fichiers Parquet sans tout charger en RAM
result = duckdb.sql("""
    SELECT
        country,
        SUM(revenue)  AS total_revenue,
        COUNT(*)      AS nb_orders
    FROM 'data/orders_*.parquet'
    WHERE order_date >= '2024-01-01'
    GROUP BY country
    ORDER BY total_revenue DESC
    LIMIT 20
""").df()  # convertit en DataFrame pandas si necessaire

# DuckDB peut aussi requeter directement un DataFrame pandas existant
conn = duckdb.connect()
result = conn.execute("""
    SELECT customer_id, SUM(amount) AS total
    FROM df_orders
    GROUP BY customer_id
    HAVING total > 1000
""").df()

DuckDB vs pandas — 10x a 100x plus rapide sur les agregations et jointures grace a son moteur columnar vectorise
Out-of-core — traite des fichiers plus grands que la RAM grace au streaming
Parquet natif — lit les fichiers Parquet/CSV directement, avec predicate et projection pushdown
Quand l'utiliser — agregations, jointures, filtres sur gros volumes. Garder pandas pour la manipulation fine (reshape, pivot, string operations)

Alternative zero-installation : DuckDB fonctionne en process sans serveur. pip install duckdb et c'est pret. Idéal pour les scripts ETL locaux sur des fichiers volumineux.

5Polars : performances maximales, API lazy

Question discriminante

Quelle est la difference entre l'API eager et lazy de Polars ? Quand migrer de pandas vers Polars ?

import polars as pl

# API Eager : execution immediate (comme pandas)
df = pl.read_csv("data.csv")
result = (
    df
    .filter(pl.col("amount") > 100)
    .group_by("category")
    .agg(pl.col("amount").sum().alias("total"))
)

# API Lazy : execution differee et optimisee (comme Spark)
result = (
    pl.scan_csv("data.csv")      # scan = lecture lazy
    .filter(pl.col("amount") > 100)
    .group_by("category")
    .agg(pl.col("amount").sum().alias("total"))
    .collect()                   # declenche l'execution optimisee
)
# Polars optimise automatiquement : predicate pushdown,
# projection pushdown, parallelisme multi-thread natif

Polars vs pandas — 5x a 50x plus rapide grace a Rust, execution multi-thread parallelisee nativement
API Lazy — le query planner optimise les operations avant de les executer (comme Spark). A privilegier pour les gros volumes
Quand migrer — volumes > 500 MB en RAM, besoin de performance critique, equipe prete a apprendre l'API
Compatibilite — conversion facile depuis/vers pandas via .to_pandas() et pl.from_pandas()

6Profiling et diagnostic de performance

Question discriminante

Comment identifiez-vous le goulot d'etranglement dans un script Python data lent ?

import cProfile
import timeit

# cProfile : profiling par fonction
cProfile.run('process_dataframe(df)', sort='cumulative')

# timeit : comparer deux approches
t1 = timeit.timeit(
    'df.groupby("category").agg({"amount": "sum"})',
    globals=globals(), number=100
)

# memory_profiler : profiling memoire ligne par ligne
from memory_profiler import profile

@profile
def process_data(df):
    result = df.groupby('category').agg({'amount': 'sum'})
    return result

# YData Profiling : rapport qualite automatique
from ydata_profiling import ProfileReport
report = ProfileReport(df, title="Data Quality Report")
report.to_file("report.html")

cProfile — identifier les fonctions qui consomment le plus de temps CPU
memory_profiler — identifier les pics de consommation memoire ligne par ligne
%timeit dans Jupyter — comparer rapidement deux approches en quelques lignes
line_profiler — profiling ligne par ligne du temps CPU (plus precis que cProfile pour les fonctions)

7Grille par niveau

Niveau	Maitrise attendue	Signal GO	NO-GO
Junior	pandas basique, vectorisation, groupby/merge/pivot	Evite iterrows(), utilise .loc correctement, sait faire un merge multi-cles	Utilise des boucles for sur les DataFrames, ne sait pas ce qu'est la vectorisation
Confirme	Optimisation memoire, DuckDB, profiling, types Category	Reduit la memoire via les dtypes, a utilise DuckDB sur un projet, sait utiliser cProfile	Ne connait pas DuckDB, ne sait pas reduire la consommation memoire
Senior	Polars, streaming gros volumes, benchmarks, tests de perf	A utilise Polars sur un projet reel, traite des fichiers plus grands que la RAM avec DuckDB ou chunks	N'a jamais entendu parler de Polars, ne sait pas traiter un fichier plus grand que la RAM
Lead	Architecture data locale vs distribuee, choix Spark vs DuckDB vs Polars selon le contexte	Justifie le choix DuckDB vs Spark selon le volume et le contexte, a defini les standards Python de son equipe	Ne peut pas expliquer quand utiliser Spark plutot que DuckDB

A Data Engineer who uses iterrows() loops on pandas DataFrames in production delivers technical debt. Performance pitfalls, vectorization, and mastery of DuckDB or Polars are the real differentiators in interviews.

1pandas: classic pitfalls

Discriminating question

What is the difference between .loc, .iloc and .at? Why should you absolutely avoid iterrows() on a large DataFrame?

# BAD: Python loop on a DataFrame (very slow)
for index, row in df.iterrows():
    df.at[index, 'profit'] = row['revenue'] - row['cost']

# GOOD: direct vectorization
df['profit'] = df['revenue'] - df['cost']

# GOOD: np.where for simple conditions
import numpy as np
df['tier'] = np.where(df['amount'] > 1000, 'gold',
             np.where(df['amount'] > 100, 'silver', 'bronze'))

# Selection by label vs position
df.loc[df['status'] == 'active', 'revenue']  # by label/condition
df.iloc[0:10, 2:5]                           # by integer position
df.at[42, 'revenue']                         # fast scalar access by label

iterrows() — iterates in pure Python: 100x to 1000x slower than vectorization. Never in production
Vectorization — operations on the entire column in a single instruction (compiled C via NumPy)
apply() — more flexible than a vectorized operation, but slower. Last resort
SettingWithCopyWarning — always work on an explicit copy (.copy()) to avoid silent modifications
Perf rule — vectorization > np.where > pd.apply() > itertuples() > iterrows()

Senior GO Signal: the candidate spontaneously cites iterrows() as an anti-pattern, explains vectorization and knows np.where.

2Memory optimization: reducing DataFrame size

Discriminating question

How do you reduce the memory consumption of a 3 GB pandas DataFrame?

import pandas as pd

# Memory diagnostic
print(df.memory_usage(deep=True).sum() / 1024**2, "MB")

# Reducing numeric types
df['age']    = df['age'].astype('int8')      # int64 -> int8  : 8x less
df['score']  = df['score'].astype('float32') # float64 -> float32 : 2x less
df['status'] = df['status'].astype('category') # string -> category : -80%
df['country']   = df['country'].astype('category')

# Types specified at import (optimal)
df = pd.read_csv("data.csv", dtype={
    'age': 'int8',
    'status': 'category',
    'amount': 'float32'
})

# Chunk reading for very large files
for chunk in pd.read_csv("big_file.csv", chunksize=100_000):
    process(chunk)

int64 → int8/int16/int32 — based on the actual min/max values of the column
float64 → float32 — reduced precision but acceptable for most analyses
string → category — essential for low cardinality columns (status, country, type). Can reduce memory by 80%
Chunk reading — process files larger than RAM in successive chunks

3Vectorization and NumPy: why it is faster

Discriminating question

Explain why a NumPy vectorized operation is 500x faster than an equivalent Python loop.

import numpy as np

# Python loop: ~5 seconds on 1M rows
distances = []
for i in range(len(df)):
    d = np.sqrt(df['x'].iloc[i]**2 + df['y'].iloc[i]**2)
    distances.append(d)

# NumPy vectorization: ~10 milliseconds (500x faster)
distances = np.sqrt(df['x']**2 + df['y']**2)

# pd.cut for bin slicing
df['age_group'] = pd.cut(df['age'],
    bins=[0, 18, 35, 50, 100],
    labels=['junior', 'adult', 'senior', 'elder']
)

Why vectorized is faster — vectorized operations execute in compiled C, without the Python interpreter overhead or loop dispatch
SIMD parallelism — NumPy leverages the processor's SIMD instructions to process multiple elements simultaneously
pd.cut / pd.qcut — bin or quantile slicing, natively vectorized

4DuckDB: SQL on DataFrames and Parquet files

Discriminating question

In which case do you use DuckDB instead of pandas? What is its main strength with Parquet files?

import duckdb

# DuckDB reads Parquet files directly without loading everything into RAM
result = duckdb.sql("""
    SELECT
        country,
        SUM(revenue)  AS total_revenue,
        COUNT(*)      AS nb_orders
    FROM 'data/orders_*.parquet'
    WHERE order_date >= '2024-01-01'
    GROUP BY country
    ORDER BY total_revenue DESC
    LIMIT 20
""").df()  # converts to pandas DataFrame if needed

# DuckDB can also directly query an existing pandas DataFrame
conn = duckdb.connect()
result = conn.execute("""
    SELECT customer_id, SUM(amount) AS total
    FROM df_orders
    GROUP BY customer_id
    HAVING total > 1000
""").df()

DuckDB vs pandas — 10x to 100x faster on aggregations and joins thanks to its vectorized columnar engine
Out-of-core — processes files larger than RAM thanks to streaming
Native Parquet — reads Parquet/CSV files directly, with predicate and projection pushdown
When to use it — aggregations, joins, filters on large volumes. Keep pandas for fine-grained manipulation (reshape, pivot, string operations)

Zero-installation alternative: DuckDB runs in-process without a server. pip install duckdb and it's ready. Ideal for local ETL scripts on large files.

5Polars: maximum performance, lazy API

Discriminating question

What is the difference between the eager and lazy API in Polars? When should you migrate from pandas to Polars?

import polars as pl

# Eager API: immediate execution (like pandas)
df = pl.read_csv("data.csv")
result = (
    df
    .filter(pl.col("amount") > 100)
    .group_by("category")
    .agg(pl.col("amount").sum().alias("total"))
)

# Lazy API: deferred and optimized execution (like Spark)
result = (
    pl.scan_csv("data.csv")      # scan = lazy read
    .filter(pl.col("amount") > 100)
    .group_by("category")
    .agg(pl.col("amount").sum().alias("total"))
    .collect()                   # triggers optimized execution
)
# Polars automatically optimizes: predicate pushdown,
# projection pushdown, native multi-thread parallelism

Polars vs pandas — 5x to 50x faster thanks to Rust, natively parallelized multi-thread execution
Lazy API — the query planner optimizes operations before executing them (like Spark). Preferred for large volumes
When to migrate — volumes > 500 MB in RAM, need for critical performance, team ready to learn the API
Compatibility — easy conversion to/from pandas via .to_pandas() and pl.from_pandas()

6Profiling and performance diagnostics

Vous recrutez un Data Engineer ou Data Scientist Python ?

Premier entretien gratuit. Rapport GO/NO-GO sous 48h.

Tester gratuitement Reserver un appel