Docker est incontournable pour les Data Engineers. Airflow, pipelines, environnements reproductibles — voici comment evaluer ce que cela signifie.
Docker est incontournable pour les Data Engineers. Airflow tourne sous Docker, les pipelines sont containerises. Voici comment evaluer ce que cela signifie reellement.
Difference entre une image Docker et un container ? Et entre une image et un Dockerfile ?
Image = template immutable (classe en POO). Container = instance en cours d'execution. Dockerfile = recette pour construire une image.
Pourquoi l'ordre des instructions dans un Dockerfile a-t-il de l'importance ?
FROM python:3.11-slim
WORKDIR /app
# Dependances : cache stable, en premier
COPY requirements.txt .
RUN pip install -r requirements.txt
# Code : cache invalide souvent, en dernier
COPY . .
CMD ["python", "pipeline.py"]Comment persistez-vous des donnees generees par un container apres son arret ?
Exemple de docker-compose.yml pour un projet data.
services:
postgres:
image: postgres:15
volumes: [postgres_data:/var/lib/postgresql/data]
dbt:
build: .
depends_on: [postgres]
volumes:
postgres_data:Comment integrez-vous Docker dans votre pipeline CI/CD ?
| Niveau | Maitrise attendue | Signal GO | NO-GO |
|---|---|---|---|
| Junior | docker pull/run/ps/logs, images de base | Comprend image vs container, utilise .dockerignore | Ne sait pas ce qu'est un layer |
| Confirme | Dockerfile optimise, volumes, Docker Compose | A ecrit un Dockerfile multi-stage, Compose pour Airflow | Ne sait pas pourquoi l'ordre des instructions compte |
| Senior | CI/CD Docker, registres prives, securite | Build+push+deploy dans une CI | N'a jamais pousse vers un registre prive |
| Lead | Architecture containers, Kubernetes, standards securite | A defini les standards d'images pour l'equipe | Ne peut pas expliquer Compose vs Kubernetes |
Premier entretien gratuit. Rapport GO/NO-GO sous 48h.