Accueil›Blog›Test technique données synthétiques : générer des données de test réalistes

Guide recrutement data

Test technique données synthétiques : générer des données de test réalistes

Les données synthétiques permettent de tester les pipelines et entraîner des modèles sans exposer de données réelles. En entretien, on évalue la capacité à choisir la bonne approche selon le cas.

Data Builder·Juin 2025·5 min de lecture·Data Engineer · Data Scientist

Sommaire

Pourquoi les données synthétiques
Faker pour les tests
SDV pour la distribution
Gretel et la confidentialité
Évaluer la qualité
Cas d usage
Grille

1Pourquoi générer des données synthétiques

Question discriminante

Dans quels cas avez-vous besoin de données synthétiques ?

Tests de pipelines — tester avec des vraies distributions sans données de production
RGPD — partager des datasets avec des tiers ou des équipes offshore sans données personnelles réelles
ML avec peu de données — augmenter un dataset déséquilibré (SMOTE pour les classes minoritaires)
Environnements de dev/staging — cloner la production sans les données sensibles
Adversarial testing — générer des cas limites et des anomalies pour tester la robustesse

2Faker : données de test basiques

Question discriminante

Comment générez-vous des données de test réalistes avec Faker ?

from faker import Faker
import pandas as pd
import random
from datetime import datetime, timedelta

fake = Faker('fr_FR')  # locale française

def generate_orders(n: int = 1000) -> pd.DataFrame:
    orders = []
    for _ in range(n):
        order_date = fake.date_between(start_date='-1y', end_date='today')
        orders.append({
            'order_id': fake.uuid4(),
            'customer_email': fake.email(),
            'customer_name': fake.name(),
            'amount': round(random.lognormal(4, 1), 2),  # log-normal comme les vrais achats
            'status': random.choices(
                ['completed', 'pending', 'cancelled'],
                weights=[0.85, 0.1, 0.05]
            )[0],
            'region': fake.department_name(),
            'order_date': order_date
        })
    return pd.DataFrame(orders)

df = generate_orders(10000)
print(df.head())

3SDV : préserver la distribution statistique

Question discriminante

Quand utilisez-vous SDV plutôt que Faker pour générer des données synthétiques ?

from sdv.single_table import GaussianCopulaSynthesizer
from sdv.metadata import SingleTableMetadata

# Faker génère des données plausibles mais pas statistiquement fidèles
# SDV génère des données avec les MÊMES distributions que les vraies

# Définir les métadonnées
metadata = SingleTableMetadata()
metadata.detect_from_dataframe(real_orders_df)
metadata.update_column('email', sdtype='email')  # PII à anonymiser

# Entraîner le synthétiseur
synth = GaussianCopulaSynthesizer(metadata)
synth.fit(real_orders_df)

# Générer des données synthétiques
synthetic_df = synth.sample(num_rows=10000)

# Évaluer la qualité
from sdv.evaluation.single_table import run_diagnostic, evaluate_quality
diag = run_diagnostic(real_orders_df, synthetic_df, metadata)
quality = evaluate_quality(real_orders_df, synthetic_df, metadata)
print(f'Quality score: {quality.get_score():.2f}')

4Gretel.ai : confidentialité différentielle

Question discriminante

Quand avez-vous besoin de données synthétiques avec garanties de confidentialité ?

Gretel.ai — génère des données synthétiques avec differential privacy. Les données synthétiques ne peuvent pas être utilisées pour retrouver des individus réels
Cas d usage — partager des données médicales ou financières pour de la recherche externe, développement offshore avec des données sensibles
Privacy guarantee — epsilon-differential privacy : même si on connaît N-1 lignes du dataset réel, on ne peut pas déterminer la N-ième
Trade-off — plus la garantie de confidentialité est forte (epsilon faible), moins les données synthétiques sont fidèles aux vraies

5Évaluer la qualité des données synthétiques

Question discriminante

Comment vérifiez-vous que vos données synthétiques sont suffisamment réalistes ?

Statistical fidelity — comparer les distributions (KS test), les corrélations, les valeurs manquantes entre real et synthétique
ML efficacy — entraîner un modèle sur le synthétique, évaluer sur le réel. Si les performances sont proches = bonne fidélité
Privacy test — vérifier que les données synthétiques ne contiennent pas de vraies données (Distance to Closest Record)
SDV Quality Report — rapport automatique qui compare les propriétés statistiques des deux datasets

6Cas d usage concrets

Question discriminante

Donnez 3 cas d usage où vous avez utilisé ou auriez dû utiliser des données synthétiques.

Tests de pipeline — générer 10M de lignes avec les distributions connues pour tester les performances avant la mise en production
Classe minoritaire ML — SMOTE pour augmenter les exemples positifs dans un dataset de détection de fraude déséquilibré (1% de fraude)
Staging environment — copier la production dans staging avec SDV pour avoir les mêmes distributions sans données personnelles

7Grille par niveau

Niveau	Maitrise	Signal GO	NO-GO
Confirmé	Faker pour les tests, comprend les cas d usage	A utilisé Faker pour générer des fixtures de test réalistes	Utilise des données de production dans les tests
Senior	SDV, SMOTE, évaluation de la qualité	A utilisé SDV pour préserver les distributions, évalue la fidélité statistique	Ne sait pas ce que sont les données synthétiques

Vous recrutez un Data Engineer ou Data Scientist ?

Premier entretien gratuit. Rapport GO/NO-GO sous 48h.

Tester gratuitement Reserver un appel