Test technique RAG : architecture, embeddings, bases vectorielles

Le RAG est le pattern dominant pour deployer des LLMs sur des donnees internes. En entretien, on evalue la capacite a choisir la bonne infrastructure et a optimiser la qualite du retrieval.

Data Builder·Juin 2025·7 min de lecture·Data Scientist · Data Engineer

Sommaire

RAG vs fine-tuning
Pipeline complet
Embeddings et chunking
Bases vectorielles
Optimisation du retrieval
Choix du LLM
Grille

Le RAG (Retrieval-Augmented Generation) connecte un LLM a des donnees internes sans le reentrainer. En entretien Senior, on distingue les profils qui ont deploye un RAG en production de ceux qui en ont fait un POC.

1RAG vs fine-tuning : la question discriminante

Question discriminante

Quelle est la difference entre RAG et fine-tuning ? Dans quel cas choisissez-vous l un plutot que l autre ?

RAG — enrichit le prompt avec des documents pertinents. Le modele ne s entraine pas : il recoit du contexte
Fine-tuning — re-entraine le modele sur des donnees specifiques pour modifier son comportement. Plus couteux, moins flexible
Quand RAG — donnees qui changent frequemment, besoin de tracabilite, contraintes de confidentialite
Quand fine-tuning — style tres specifique, domaine ultra-specialise, modele embarque sans reseau

Rappel fondamental : UN RAG N APPREND PAS. Il cherche du contexte pour enrichir le prompt. Confondre RAG et fine-tuning est un NO-GO immediat.

2Pipeline RAG de bout en bout

Question discriminante

Decrivez les etapes d un pipeline RAG de la source documentaire jusqu a la reponse finale.

Pipeline OFFLINE (ingestion) :
1. Chargement docs (PDF, Word, HTML, SQL...)
2. Chunking : decoupage en morceaux 256-512 tokens
3. Embedding : conversion en vecteur numerique
4. Indexation dans la base vectorielle

Pipeline ONLINE (temps reel) :
1. Question utilisateur
2. Embedding de la question
3. Recherche des k chunks les plus proches
4. Construction du prompt : question + chunks
5. Generation LLM
6. Citation des sources

3Embeddings et chunking

Question discriminante

Quelle est la taille de chunk optimale ? Comment gerez-vous le chevauchement ?

from langchain.text_splitter import RecursiveCharacterTextSplitter
splitter = RecursiveCharacterTextSplitter(
    chunk_size=512,
    chunk_overlap=50,
    separators=['\n\n', '\n', '.', ' ']
)
chunks = splitter.split_documents(docs)

256-512 tokens — sweet spot. Trop petit = perte contexte, trop grand = dilution pertinence
Chunk overlap 10-15% — evite de couper une idee entre deux chunks
Modeles d embedding — text-embedding-3-small (OpenAI), BGE-M3 (open source multilingue), Cohere Embed v3

4Bases vectorielles : savoir choisir

Question discriminante

Quelle base vectorielle choisissez-vous pour un RAG en production sur GCP ? Et pour un POC rapide ?

Solution	Type	Ideal pour
Vertex AI Vector Search	Managee GCP	Production GCP haute scalabilite
Pinecone	Managee tiers	POC rapide, SaaS
Qdrant	Open source self-hosted	Projets sensibles, controle total
ChromaDB	Open source local	Dev local, POC
pgvector	Extension PostgreSQL	Equipes SQL, infra existante

HNSW — haute precision, memoire elevee. Defaut Qdrant et Weaviate
IVF-PQ — plus scalable, precision legerement reduite sur tres gros volumes
Similarite cosinus — metrique standard pour les embeddings de texte

5Optimisation du retrieval

Question discriminante

Comment ameliorez-vous la qualite du retrieval quand les resultats ne sont pas assez pertinents ?

Hybrid search — combiner recherche vectorielle (semantique) + BM25 (lexicale)
Re-ranking — apres retrieval, scorer avec un modele de cross-attention (Cohere Rerank, BGE Reranker)
Query reformulation — transformer la question en plusieurs requetes
Filtrage par metadata — filtrer par source, date, auteur avant la recherche vectorielle

6Choix du LLM de generation

LLM	Avantages	Cas d usage
GPT-4o	Qualite elevee, context 128k, multimodal	Production generale
Claude 3.5	Context 200k, excellent documents longs	Analyse documentaire
Gemini 1.5 Pro	Context 1M tokens	Stack GCP, tres longs documents
Llama 3.1 / Mistral	Open source, auto-heberge	Donnees confidentielles, on-premise

7Grille par niveau

Niveau	Maitrise	Signal GO	NO-GO
Junior	Comprend RAG, a fait un POC LangChain	Explique pipeline offline/online, a utilise ChromaDB	Confond RAG et fine-tuning
Confirme	Chunking, choix embedding, bases vecto production	Justifie la taille de chunk, a deploye sur Qdrant ou pgvector	N a utilise que ChromaDB local
Senior	Hybrid search, re-ranking, evaluation RAGAS	A implemente re-ranking, mesure faithfulness avec RAGAS	N a jamais evalue la qualite de son RAG

Vous recrutez un profil GenAI ?

Premier entretien gratuit. Rapport GO/NO-GO sous 48h.

Tester gratuitement Reserver un appel