Le RAG est le pattern dominant pour deployer des LLMs sur des donnees internes. En entretien, on evalue la capacite a choisir la bonne infrastructure et a optimiser la qualite du retrieval.
Le RAG (Retrieval-Augmented Generation) connecte un LLM a des donnees internes sans le reentrainer. En entretien Senior, on distingue les profils qui ont deploye un RAG en production de ceux qui en ont fait un POC.
Quelle est la difference entre RAG et fine-tuning ? Dans quel cas choisissez-vous l un plutot que l autre ?
Rappel fondamental : UN RAG N APPREND PAS. Il cherche du contexte pour enrichir le prompt. Confondre RAG et fine-tuning est un NO-GO immediat.
Decrivez les etapes d un pipeline RAG de la source documentaire jusqu a la reponse finale.
Pipeline OFFLINE (ingestion) :
1. Chargement docs (PDF, Word, HTML, SQL...)
2. Chunking : decoupage en morceaux 256-512 tokens
3. Embedding : conversion en vecteur numerique
4. Indexation dans la base vectorielle
Pipeline ONLINE (temps reel) :
1. Question utilisateur
2. Embedding de la question
3. Recherche des k chunks les plus proches
4. Construction du prompt : question + chunks
5. Generation LLM
6. Citation des sourcesQuelle est la taille de chunk optimale ? Comment gerez-vous le chevauchement ?
from langchain.text_splitter import RecursiveCharacterTextSplitter
splitter = RecursiveCharacterTextSplitter(
chunk_size=512,
chunk_overlap=50,
separators=['\n\n', '\n', '.', ' ']
)
chunks = splitter.split_documents(docs)Quelle base vectorielle choisissez-vous pour un RAG en production sur GCP ? Et pour un POC rapide ?
| Solution | Type | Ideal pour |
|---|---|---|
| Vertex AI Vector Search | Managee GCP | Production GCP haute scalabilite |
| Pinecone | Managee tiers | POC rapide, SaaS |
| Qdrant | Open source self-hosted | Projets sensibles, controle total |
| ChromaDB | Open source local | Dev local, POC |
| pgvector | Extension PostgreSQL | Equipes SQL, infra existante |
Comment ameliorez-vous la qualite du retrieval quand les resultats ne sont pas assez pertinents ?
| LLM | Avantages | Cas d usage |
|---|---|---|
| GPT-4o | Qualite elevee, context 128k, multimodal | Production generale |
| Claude 3.5 | Context 200k, excellent documents longs | Analyse documentaire |
| Gemini 1.5 Pro | Context 1M tokens | Stack GCP, tres longs documents |
| Llama 3.1 / Mistral | Open source, auto-heberge | Donnees confidentielles, on-premise |
| Niveau | Maitrise | Signal GO | NO-GO |
|---|---|---|---|
| Junior | Comprend RAG, a fait un POC LangChain | Explique pipeline offline/online, a utilise ChromaDB | Confond RAG et fine-tuning |
| Confirme | Chunking, choix embedding, bases vecto production | Justifie la taille de chunk, a deploye sur Qdrant ou pgvector | N a utilise que ChromaDB local |
| Senior | Hybrid search, re-ranking, evaluation RAGAS | A implemente re-ranking, mesure faithfulness avec RAGAS | N a jamais evalue la qualite de son RAG |
Premier entretien gratuit. Rapport GO/NO-GO sous 48h.