AccueilBlogTest technique RAG : architecture, embeddings, bases vectorielles
Guide recrutement data

Test technique RAG : architecture, embeddings, bases vectorielles

Le RAG est le pattern dominant pour deployer des LLMs sur des donnees internes. En entretien, on evalue la capacite a choisir la bonne infrastructure et a optimiser la qualite du retrieval.

Data Builder·Juin 2025·7 min de lecture·Data Scientist · Data Engineer
Sommaire
  1. RAG vs fine-tuning
  2. Pipeline complet
  3. Embeddings et chunking
  4. Bases vectorielles
  5. Optimisation du retrieval
  6. Choix du LLM
  7. Grille

Le RAG (Retrieval-Augmented Generation) connecte un LLM a des donnees internes sans le reentrainer. En entretien Senior, on distingue les profils qui ont deploye un RAG en production de ceux qui en ont fait un POC.

1RAG vs fine-tuning : la question discriminante

Question discriminante

Quelle est la difference entre RAG et fine-tuning ? Dans quel cas choisissez-vous l un plutot que l autre ?

Rappel fondamental : UN RAG N APPREND PAS. Il cherche du contexte pour enrichir le prompt. Confondre RAG et fine-tuning est un NO-GO immediat.

2Pipeline RAG de bout en bout

Question discriminante

Decrivez les etapes d un pipeline RAG de la source documentaire jusqu a la reponse finale.

Pipeline OFFLINE (ingestion) : 1. Chargement docs (PDF, Word, HTML, SQL...) 2. Chunking : decoupage en morceaux 256-512 tokens 3. Embedding : conversion en vecteur numerique 4. Indexation dans la base vectorielle Pipeline ONLINE (temps reel) : 1. Question utilisateur 2. Embedding de la question 3. Recherche des k chunks les plus proches 4. Construction du prompt : question + chunks 5. Generation LLM 6. Citation des sources

3Embeddings et chunking

Question discriminante

Quelle est la taille de chunk optimale ? Comment gerez-vous le chevauchement ?

from langchain.text_splitter import RecursiveCharacterTextSplitter splitter = RecursiveCharacterTextSplitter( chunk_size=512, chunk_overlap=50, separators=['\n\n', '\n', '.', ' '] ) chunks = splitter.split_documents(docs)

4Bases vectorielles : savoir choisir

Question discriminante

Quelle base vectorielle choisissez-vous pour un RAG en production sur GCP ? Et pour un POC rapide ?

SolutionTypeIdeal pour
Vertex AI Vector SearchManagee GCPProduction GCP haute scalabilite
PineconeManagee tiersPOC rapide, SaaS
QdrantOpen source self-hostedProjets sensibles, controle total
ChromaDBOpen source localDev local, POC
pgvectorExtension PostgreSQLEquipes SQL, infra existante

5Optimisation du retrieval

Question discriminante

Comment ameliorez-vous la qualite du retrieval quand les resultats ne sont pas assez pertinents ?

6Choix du LLM de generation

LLMAvantagesCas d usage
GPT-4oQualite elevee, context 128k, multimodalProduction generale
Claude 3.5Context 200k, excellent documents longsAnalyse documentaire
Gemini 1.5 ProContext 1M tokensStack GCP, tres longs documents
Llama 3.1 / MistralOpen source, auto-hebergeDonnees confidentielles, on-premise

7Grille par niveau

NiveauMaitriseSignal GONO-GO
JuniorComprend RAG, a fait un POC LangChainExplique pipeline offline/online, a utilise ChromaDBConfond RAG et fine-tuning
ConfirmeChunking, choix embedding, bases vecto productionJustifie la taille de chunk, a deploye sur Qdrant ou pgvectorN a utilise que ChromaDB local
SeniorHybrid search, re-ranking, evaluation RAGASA implemente re-ranking, mesure faithfulness avec RAGASN a jamais evalue la qualite de son RAG

Vous recrutez un profil GenAI ?

Premier entretien gratuit. Rapport GO/NO-GO sous 48h.