AccueilBlogTest technique GCP stack data : BigQuery, Dataflow, Pub/Sub, Vertex AI
Guide recrutement data

Test technique GCP stack data : BigQuery, Dataflow, Pub/Sub, Vertex AI

Google Cloud Platform est la stack data cloud la plus cohérente. En entretien, on évalue la capacité à choisir et intégrer les bons services GCP selon le cas d usage.

Data Builder·Juin 2025·7 min de lecture·Data Engineer
Sommaire
  1. Architecture data sur GCP
  2. BigQuery : le centre de gravité
  3. Dataflow : streaming et batch
  4. Pub/Sub : messagerie temps réel
  5. Cloud Composer : orchestration
  6. Vertex AI : ML sur GCP
  7. Grille

1Architecture data de référence sur GCP

Question discriminante

Décrivez une architecture data end-to-end sur GCP.

# Architecture GCP typique SOURCES ├── Cloud SQL / AlloyDB (bases transactionnelles) ├── APIs tierces ├── Fichiers (GCS) └── Streaming (IoT, events) INGESTION ├── Pub/Sub (streaming) ├── Cloud Storage Transfer (batch) ├── Datastream (CDC depuis Cloud SQL) └── Fivetran / Airbyte (connecteurs SaaS) ORCHESTRATION └── Cloud Composer (Airflow managé) TRANSFORMATION ├── Dataflow (streaming + batch) ├── BigQuery SQL + dbt └── Spark sur Dataproc STOCKAGE ANALYTIQUE └── BigQuery CONSOMMATION ├── Looker / Looker Studio ├── Vertex AI (ML) └── APIs via Cloud Run

2BigQuery : le centre de gravité GCP

Question discriminante

Quelles fonctionnalités BigQuery utilisez-vous au-delà du SQL de base ?

3Dataflow : traitement batch et streaming unifié

Question discriminante

Quelle est la différence entre Dataflow et Spark ? Quand choisissez-vous Dataflow ?

import apache_beam as beam from apache_beam.options.pipeline_options import PipelineOptions options = PipelineOptions( runner='DataflowRunner', project='mon-projet-gcp', region='europe-west1', temp_location='gs://mon-bucket/temp', staging_location='gs://mon-bucket/staging' ) with beam.Pipeline(options=options) as p: ( p | 'ReadFromBQ' >> beam.io.ReadFromBigQuery( query='SELECT * FROM dataset.orders WHERE date >= "2024-01-01"' ) | 'Transform' >> beam.Map(lambda row: { 'order_id': row['order_id'], 'revenue': row['quantity'] * row['unit_price'] }) | 'WriteToBQ' >> beam.io.WriteToBigQuery( 'mon-projet:dataset.fct_revenue' ) )

4Pub/Sub : messagerie temps réel

Question discriminante

Comment intégrez-vous Pub/Sub dans un pipeline de streaming data ?

from google.cloud import pubsub_v1 import json # Publisher : émettre des événements publisher = pubsub_v1.PublisherClient() topic_path = 'projects/mon-projet/topics/orders-events' def publish_order_event(order: dict): data = json.dumps(order).encode('utf-8') future = publisher.publish(topic_path, data) return future.result() # Pattern typique : API → Pub/Sub → Dataflow → BigQuery # Pub/Sub garantit la livraison at-least-once # Dataflow déduplique avec les windows et watermarks

5Cloud Composer : Airflow managé GCP

Question discriminante

Pourquoi Cloud Composer plutôt qu Airflow self-hosted sur K8s ?

6Vertex AI : plateforme ML GCP

Question discriminante

Quels composants Vertex AI utilisez-vous dans un projet ML end-to-end ?

7Grille par niveau

NiveauMaitriseSignal GONO-GO
ConfirméBigQuery, GCS, Cloud Composer, IAM basiqueA déployé des pipelines sur Cloud Composer, optimise BigQuery avec partitionnementNe sait pas ce qu est Workload Identity sur GCP
SeniorDataflow, Pub/Sub, Vertex AI, architecture end-to-endA construit un pipeline streaming Pub/Sub → Dataflow → BigQuery, connaît Vertex AINe sait pas la différence entre Dataflow et Spark/Dataproc

Vous recrutez un Data Engineer GCP ?

Premier entretien gratuit. Rapport GO/NO-GO sous 48h.