Google Cloud Platform est la stack data cloud la plus cohérente. En entretien, on évalue la capacité à choisir et intégrer les bons services GCP selon le cas d usage.
Décrivez une architecture data end-to-end sur GCP.
# Architecture GCP typique
SOURCES
├── Cloud SQL / AlloyDB (bases transactionnelles)
├── APIs tierces
├── Fichiers (GCS)
└── Streaming (IoT, events)
INGESTION
├── Pub/Sub (streaming)
├── Cloud Storage Transfer (batch)
├── Datastream (CDC depuis Cloud SQL)
└── Fivetran / Airbyte (connecteurs SaaS)
ORCHESTRATION
└── Cloud Composer (Airflow managé)
TRANSFORMATION
├── Dataflow (streaming + batch)
├── BigQuery SQL + dbt
└── Spark sur Dataproc
STOCKAGE ANALYTIQUE
└── BigQuery
CONSOMMATION
├── Looker / Looker Studio
├── Vertex AI (ML)
└── APIs via Cloud RunQuelles fonctionnalités BigQuery utilisez-vous au-delà du SQL de base ?
Quelle est la différence entre Dataflow et Spark ? Quand choisissez-vous Dataflow ?
import apache_beam as beam
from apache_beam.options.pipeline_options import PipelineOptions
options = PipelineOptions(
runner='DataflowRunner',
project='mon-projet-gcp',
region='europe-west1',
temp_location='gs://mon-bucket/temp',
staging_location='gs://mon-bucket/staging'
)
with beam.Pipeline(options=options) as p:
(
p
| 'ReadFromBQ' >> beam.io.ReadFromBigQuery(
query='SELECT * FROM dataset.orders WHERE date >= "2024-01-01"'
)
| 'Transform' >> beam.Map(lambda row: {
'order_id': row['order_id'],
'revenue': row['quantity'] * row['unit_price']
})
| 'WriteToBQ' >> beam.io.WriteToBigQuery(
'mon-projet:dataset.fct_revenue'
)
)Comment intégrez-vous Pub/Sub dans un pipeline de streaming data ?
from google.cloud import pubsub_v1
import json
# Publisher : émettre des événements
publisher = pubsub_v1.PublisherClient()
topic_path = 'projects/mon-projet/topics/orders-events'
def publish_order_event(order: dict):
data = json.dumps(order).encode('utf-8')
future = publisher.publish(topic_path, data)
return future.result()
# Pattern typique : API → Pub/Sub → Dataflow → BigQuery
# Pub/Sub garantit la livraison at-least-once
# Dataflow déduplique avec les windows et watermarksPourquoi Cloud Composer plutôt qu Airflow self-hosted sur K8s ?
Quels composants Vertex AI utilisez-vous dans un projet ML end-to-end ?
| Niveau | Maitrise | Signal GO | NO-GO |
|---|---|---|---|
| Confirmé | BigQuery, GCS, Cloud Composer, IAM basique | A déployé des pipelines sur Cloud Composer, optimise BigQuery avec partitionnement | Ne sait pas ce qu est Workload Identity sur GCP |
| Senior | Dataflow, Pub/Sub, Vertex AI, architecture end-to-end | A construit un pipeline streaming Pub/Sub → Dataflow → BigQuery, connaît Vertex AI | Ne sait pas la différence entre Dataflow et Spark/Dataproc |
Premier entretien gratuit. Rapport GO/NO-GO sous 48h.