Test technique Trino : SQL fédéré sur sources multiples

Trino (ex-Presto) est le moteur SQL de référence pour interroger plusieurs sources de données depuis une seule requête. En entretien, on évalue la capacité à l architecturer et l optimiser.

Data Builder·Juin 2025·6 min de lecture·Data Engineer

Sommaire

Architecture Trino
Connecteurs
Query Federation
Optimisation
Trino vs Spark SQL
Cas d usage
Grille

1Architecture Trino : coordinator et workers

Question discriminante

Comment est architecturé Trino ? Quelle est la différence avec Spark ?

Coordinator — parse et planifie les requêtes, distribue le travail aux workers
Workers — exécutent les fragments de requête, communiquent directement entre eux (pas via le coordinator)
Pull model — les workers tirent les données des connecteurs à la demande (vs Spark qui charge tout en mémoire)
Pas de stockage — Trino ne stocke rien. Tout est lu depuis les connecteurs à la requête
vs Spark — Trino : latence faible, SQL interactif. Spark : traitement batch massif, ML, streaming

2Connecteurs : la richesse de Trino

Question discriminante

Quels connecteurs Trino supportez-vous dans votre stack ?

## Configuration d un catalog Trino (catalog/hive.properties)
connector.name=hive
hive.metastore.uri=thrift://hive-metastore:9083
hive.s3.aws-access-key=...
hive.s3.aws-secret-key=...

## catalog/iceberg.properties
connector.name=iceberg
hive.metastore.uri=thrift://hive-metastore:9083

## catalog/postgres.properties
connector.name=postgresql
connection-url=jdbc:postgresql://postgres:5432/analytics
connection-user=trino
connection-password=${ENV:POSTGRES_PASSWORD}

## catalog/bigquery.properties
connector.name=bigquery
bigquery.project-id=mon-projet
bigquery.credentials-file=/etc/trino/bq-key.json

## Requête fédérée : join entre Hive et PostgreSQL
SELECT h.order_id, p.customer_email
FROM hive.analytics.orders h
JOIN postgresql.crm.customers p ON h.customer_id = p.id;

3Query Federation : les pièges

Question discriminante

Quels sont les pièges de performance dans une requête Trino qui joint plusieurs sources ?

Pas de pushdown cross-sources — Trino ne peut pas pousser un filtre de la table PostgreSQL vers la table Hive
Broadcast la petite table — quand on joint une grande table et une petite, Trino broadcaste automatiquement la petite. Mais si les deux sont grandes, shuffle coûteux
Statistics — analyser les tables régulièrement (ANALYZE TABLE) pour que le planner choisisse le bon plan
Materialized views — pré-matérialiser les jointures coûteuses inter-sources dans une table Iceberg

4Optimisation des requêtes Trino

Question discriminante

Comment optimisez-vous une requête Trino lente ?

-- 1. Expliquer le plan d exécution
EXPLAIN ANALYZE
SELECT region, SUM(amount)
FROM iceberg.analytics.orders
WHERE order_date >= DATE '2025-01-01'
GROUP BY region;

-- 2. Forcer le broadcast join
SELECT /*+ BROADCAST(dim) */ f.*, dim.name
FROM fact_table f
JOIN dim_table dim ON f.id = dim.id;

-- 3. Vérifier le pruning de partitions
-- Dans l EXPLAIN : 'Partition Pruning' doit apparaître
-- Si Trino scanne toutes les partitions -> filtre sur mauvaise colonne

-- 4. Statistiques à jour
ANALYZE iceberg.analytics.orders;
ANALYZE iceberg.analytics.orders WITH(columns = ARRAY['region', 'order_date']);

5Trino vs Spark SQL : quand utiliser quoi

Question discriminante

Quels sont les critères de choix entre Trino et Spark SQL ?

Critère	Trino	Spark SQL
Latence	< 1s possible	Quelques secondes minimum
Query federation	Natif	Limité
Très gros volumes	Possible mais Spark meilleur	Excellent
Streaming	Non	Oui
ML	Non	Oui
Cas typique	BI interactive, exploration, federation	ETL batch, ML, streaming

6Cas d usage Trino en production

Question discriminante

Dans quels contextes déployez-vous Trino ?

Remplacement de Hive — Trino est 10-100x plus rapide que Hive pour les requêtes ad-hoc sur HDFS/S3
Query layer unifié — une seule interface SQL pour PostgreSQL, S3/Iceberg, Kafka, MongoDB
Starburst Galaxy — version cloud managée de Trino. Pour les équipes sans Ops
Amazon Athena — basé sur Trino (anciennement Presto). Serverless, payer par octet scanné
Migration Hadoop — remplacer Hive par Trino est souvent la première étape de la migration vers le cloud

7Grille par niveau

Niveau	Maitrise	Signal GO	NO-GO
Confirmé	Architecture Trino, connecteurs, requêtes inter-sources	A écrit des requêtes fédérées Trino, comprend coordinator/workers	Ne sait pas ce qu est Trino
Senior	Optimisation, statistics, broadcast hints, choix Trino vs Spark	A optimisé des requêtes Trino avec EXPLAIN ANALYZE, justifie Trino vs Spark	Ne sait pas expliquer pourquoi une requête fédérée est lente

Vous recrutez un Data Engineer Trino ?

Premier entretien gratuit. Rapport GO/NO-GO sous 48h.

Tester gratuitement Reserver un appel