AWS est le cloud dominant pour la data. En entretien, on évalue la capacité à choisir les bons services AWS selon le cas d usage et à les intégrer dans une architecture cohérente.
Décrivez une architecture data end-to-end sur AWS.
# Architecture AWS typique
INGESTION
├── AWS DMS (Database Migration Service) - CDC depuis RDS
├── Kinesis Data Streams - streaming temps réel
├── S3 Transfer Acceleration - fichiers volumineux
└── Fivetran/Airbyte - connecteurs SaaS
STOCKAGE
└── S3 (lake brut + curated + gold)
CATALOG
└── AWS Glue Data Catalog (Hive Metastore compatible)
TRANSFORMATION
├── AWS Glue ETL (Spark managé)
├── EMR Serverless (Spark/Hive self-managed)
└── dbt + Redshift/Athena
REQUETES ANALYTIQUES
├── Amazon Athena (SQL sur S3, serverless)
└── Amazon Redshift Serverless (data warehouse)
ORCHESTRATION
├── AWS Step Functions
└── MWAA (Managed Airflow)
CONSOMMATION
└── QuickSight / Tableau / Power BIQuelles sont les fonctionnalités S3 que vous utilisez dans un pipeline data ?
Quand utilisez-vous AWS Glue vs EMR pour les transformations de données ?
## AWS Glue : Spark managé sans cluster à gérer
import sys
from awsglue.transforms import *
from awsglue.utils import getResolvedOptions
from awsglue.context import GlueContext
from awsglue.job import Job
args = getResolvedOptions(sys.argv, ['JOB_NAME'])
glue_context = GlueContext(SparkContext())
sparkSession = glue_context.spark_session
job = Job(glue_context)
# Lire depuis le Glue Data Catalog
dyf = glue_context.create_dynamic_frame.from_catalog(
database='analytics',
table_name='raw_orders'
)
# Transformer
df = dyf.toDF()
df_clean = df.filter('amount > 0').dropDuplicates(['order_id'])
# Écrire dans S3 en Parquet
glue_context.write_dynamic_frame.from_options(
frame=DynamicFrame.fromDF(df_clean, glue_context, 'clean'),
connection_type='s3',
connection_options={'path': 's3://mon-bucket/silver/orders/'},
format='parquet'
)Dans quels cas Athena est-il plus adapté que Redshift ?
Qu est-ce que Redshift Serverless ? Quand le préférer au Redshift classique ?
Qu est-ce que AWS Lake Formation ? Quand l utilisez-vous ?
| Niveau | Maitrise | Signal GO | NO-GO |
|---|---|---|---|
| Confirmé | S3, Glue Catalog, Athena, IAM basique | A déployé un pipeline S3 → Glue → Athena, utilise le partitionnement Athena | Ne sait pas ce qu est le Glue Data Catalog |
| Senior | Lake Formation, Redshift Serverless, architecture complète, cost optimization | A configuré Lake Formation avec column-level security, justifie Athena vs Redshift | Ne sait pas la différence entre Athena et Redshift |
Premier entretien gratuit. Rapport GO/NO-GO sous 48h.