Test technique Hadoop et Hive : maîtriser l héritage data

Hadoop est omniprésent dans les organisations qui ont investi dans le big data il y a 10 ans. En entretien, on évalue la capacité à maintenir cet héritage ET à planifier la migration vers le cloud.

Data Builder·Juin 2025·6 min de lecture·Data Engineer

Sommaire

HDFS : stockage distribué
MapReduce vs Spark
Hive et HiveQL
Partitionnement Hive
Migration vers le cloud
Interopérabilité avec les outils modernes
Grille

1HDFS : architecture et concepts

Question discriminante

Quelle est l architecture HDFS ? Pourquoi Spark est-il plus adapté qu HDFS pour les nouvelles architectures ?

HDFS — Hadoop Distributed File System. Fichiers divisés en blocs (128MB), répliqués 3x sur les DataNodes
NameNode — métadonnées de tous les fichiers. Single Point of Failure (SPOF) dans les vieilles versions
DataNode — stocke les blocs de données
Limitation vs cloud — HDFS couple stockage et compute. Impossible de scaler l un sans l autre. S3/GCS découplent les deux

2MapReduce : comprendre le modèle

Question discriminante

Expliquez le paradigme MapReduce. Pourquoi Spark l a-t-il largement remplacé ?

## MapReduce : framework de traitement distribué

# Phase MAP : transformer chaque record en paires (clé, valeur)
def mapper(record):
    for word in record.split():
        yield (word, 1)

# Phase SHUFFLE : regrouper par clé (automatique)
# word -> [(word, 1), (word, 1), (word, 1)...]

# Phase REDUCE : agréger les valeurs par clé
def reducer(key, values):
    return (key, sum(values))

## Spark vs MapReduce :
# MapReduce : écrit sur disque entre chaque étape -> lent
# Spark : garde les données en mémoire -> 10-100x plus rapide
# MapReduce : 1 étape par job -> beaucoup de jobs pour les algos complexes
# Spark : DAG d opérations -> pipeline complet en un seul job

3Hive : SQL sur Hadoop

Question discriminante

Comment Hive traduit-il les requêtes SQL en jobs MapReduce ou Tez ?

-- Hive : interface SQL sur HDFS
-- Les données sont dans HDFS, Hive ajoute le schéma

-- Créer une table externe (les données restent dans HDFS)
CREATE EXTERNAL TABLE orders (
    order_id STRING,
    customer_id STRING,
    amount DOUBLE,
    order_date DATE
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
STORED AS PARQUET
LOCATION '/user/hive/warehouse/orders/';

-- Requête HiveQL (syntaxe proche de SQL)
SELECT
    customer_id,
    SUM(amount) AS total_revenue
FROM orders
WHERE order_date >= '2024-01-01'
GROUP BY customer_id
ORDER BY total_revenue DESC
LIMIT 10;

4Partitionnement Hive : performance critique

Question discriminante

Comment le partitionnement Hive améliore-t-il les performances ?

-- Partitionnement statique : données dans des sous-répertoires
CREATE TABLE orders_partitioned (
    order_id STRING,
    customer_id STRING,
    amount DOUBLE
)
PARTITIONED BY (year INT, month INT)
STORED AS ORC;

-- HDFS structure :
-- /warehouse/orders_partitioned/year=2024/month=01/
-- /warehouse/orders_partitioned/year=2024/month=02/

-- Sans partitionnement : scan complet de toute la table
-- Avec partitionnement : scan uniquement des partitions filtrées
SELECT * FROM orders_partitioned
WHERE year = 2024 AND month = 1;  -- ne lit que ce dossier

-- Bucketing : subdiviser les partitions pour les jointures
CREATE TABLE orders_bucketed
CLUSTERED BY (customer_id) INTO 50 BUCKETS
STORED AS ORC;

5Migrer de Hadoop vers le cloud

Question discriminante

Quelle est la stratégie de migration d un cluster Hadoop vers le cloud ?

Lift and shift — migrer le cluster Hadoop tel quel sur des VMs cloud. Rapide mais ne profite pas des services managés
Modernisation progressive — migrer service par service : HDFS → S3/GCS, Hive → BigQuery/Athena, MapReduce → Spark managé
Format de compatibilité — ORC/Parquet sont lisibles par Hive ET Spark ET BigQuery. Facilite la transition
Hive Metastore — compatible avec Spark, Presto/Trino, Databricks. Le migrer en premier permet aux deux stacks de coexister
Risque à éviter — re-écrire tout d un coup. Migrer par domaine de données en gardant la production Hadoop active

6Interopérabilité Hadoop / outils modernes

Question discriminante

Comment faites-vous cohabiter Hadoop existant avec dbt ou Spark ?

Spark sur YARN — Spark peut s exécuter sur le cluster YARN Hadoop en utilisant HDFS comme stockage
dbt + Hive connector — dbt supporte Hive via le adapter dbt-spark avec une connexion Thrift Server
Presto/Trino — moteur SQL fédéré qui requête à la fois Hive Metastore, S3, PostgreSQL depuis une seule interface
Stratégie hybride — nouvelles tables dans S3/Parquet, tables legacy dans HDFS/ORC. Trino joint les deux

7Grille par niveau

Niveau	Maitrise	Signal GO	NO-GO
Confirmé	Architecture HDFS, HiveQL, partitionnement	A requêté Hive, comprend le partitionnement, peut écrire du HiveQL	Ne sait pas ce qu est HDFS
Senior	MapReduce vs Spark, stratégie de migration, Hive Metastore	A participé à une migration Hadoop → cloud, utilise Trino pour l interopérabilité	Ne sait pas expliquer pourquoi Spark est plus rapide que MapReduce

Vous recrutez un Data Engineer qui connaît l héritage Hadoop ?

Premier entretien gratuit. Rapport GO/NO-GO sous 48h.

Tester gratuitement Reserver un appel