
Les systèmes RAG comblent les lacunes des LLM en matière de connaissances
Nous avons publié plusieurs articles sur les nombreuses technologies qui relèvent de l’intelligence artificielle. Nos deux derniers articles se sont penchés sur les grands modèles de langage (LLM) et vous ont présenté les modèles RAG (génération augmentée de récupération). Dans cet article, nous examinerons ce modèle et la façon dont il améliore la précision des réponses des LLM.
Limites du LLM
Les grands modèles de langage peuvent effectuer un grand nombre de tâches sans augmentation. Ils peuvent générer des documents, fournir des traductions et répondre à une grande variété de questions en fonction de leurs données d’entraînement. Voici une vue tronquée du processus d’entraînement des LLM :
Étape | Description |
Collecte et prétraitement des données | Collecte des sources (livres, sites Web, articles) et préparation des données d’entraînement (nettoyage et normalisation des données) |
De la pré-formation aux tests et à la validation | Entraînement de base du GPU, évaluation de la précision, vérification de la précision des résultats et exécution de contrôles de sécurité pour détecter les réponses nuisibles. |
Surveillance et maintenance continues | Mises à jour régulières avec de nouvelles données, atténuant les problèmes émergents. |
Les grands modèles de langage peuvent exceller dans leur domaine, mais leurs connaissances se limitent à leurs données d’entraînement, ce qui peut produire des résultats inacceptables, voire nuisibles. Pour illustrer cela, examinons une requête ambiguë adressée à un LLM :
« Quand a-t-il gravi la montagne ? »
Sans contexte ni informations supplémentaires, le LLM ne peut que « deviner » une réponse en fonction de son entraînement. Dans cet exemple, il se peut que la question concerne l’alpiniste Edmund Percival Hillary et l’Everest. Le modèle peut proposer des théories sur Mallory et Irvine, ou énumérer les dates auxquelles les principaux sommets ont été gravis pour la première fois. C’est ainsi qu’une requête ambiguë peut conduire à une réponse incorrecte, que l’on appelle également une « hallucination ».
Les hallucinations sont également produites lorsque le LLM n’a pas été entraîné sur le sujet demandé. En utilisant cette requête,
« Combien de temps dure le trajet en train entre le Canada et la planète Alderaan ? »
En supposant que le LLM n’ait jamais entendu parler d’Alderaan, il pourrait répondre comme suit :
« La durée du trajet en train entre le Canada et Alderaan peut varier en fonction de la ville canadienne de départ. Il est recommandé d’arriver à la gare au moins 3 heures avant le départ. »
Il est évident que cette réponse est une hallucination, mais cette dernière repose sur au moins deux points distincts. La première est évidente : Alderaan est une planète fictive de l’univers de Star Wars. La seconde est quelque chose que nous savons aussi mais que nous ne prenons peut-être pas en compte, c’est-à-dire qu’il n’existe pas de trains reliant différentes planètes. Il s’agit de détails que la génération augmentée par récupération fournirait à un LLM qui n’a pas été entraîné sur ces informations.
Qu’est-ce qu’un processus RAG ?
En termes simples, le nom même de « génération augmentée par récupération » explique son fonctionnement. Les processus RAG améliorent les capacités des grands modèles de langage (LLM) en extrayant des informations pertinentes des bases de données ou des bases de connaissances au moment d’une requête ou d’une invite. Ces informations sont utilisées pour améliorer la précision et la pertinence de l’invite et de la réponse. Les modèles RAG complètent les modèles LLM et atténuent certaines de leurs limitations.
Un processus RAG (pour « Retrieval Augmented Generation » en anglais) se décompose en plusieurs éléments :
R – Récupération : le modèle recherche les données correspondant à la requête. La recherche peut utiliser des bases de données spécialisées, des dépôts de documents, des bases de connaissances spécifiques à un domaine et d’autres sources disponibles à cette fin.
A – Augmentée : les données trouvées lors de la recherche sont ajoutées au contexte de l’invite. Cela permet au LLM de fournir des informations plus précises, plus exactes et plus actualisées que celles qu’il a reçues au cours de son entraînement.
G – Génération : le modèle traite les informations provenant de l’invite augmentée et les combine avec les connaissances de pré-entraînement du LLM. Les capacités de langage naturel du modèle sont utilisées pour créer une réponse à la requête. La réponse peut également faire l’objet d’une vérification des faits ou d’autres améliorations avant d’être présentée à l’utilisateur.
Voyons comment fonctionne ce système dans le cadre d’une question ambiguë : « Quand a-t-il escaladé la montagne ? »
Le système analyse d’abord l’invite et tente de comprendre son intention et ses composants clés. Cette analyse est entièrement basée sur des comparaisons mathématiques rendues possibles par la vectorisation des données. La vectorisation est un processus qui convertit des données brutes telles que du texte et des images en représentations numériques pouvant être traitées par des algorithmes d’IA. La vectorisation dans l’apprentissage automatique (ML), le traitement du langage naturel (NLP) et d’autres technologies d’IA est un sujet majeur. Pour cet article, il suffit de comprendre qu’il existe un processus de conversion qui améliore l’efficacité de l’ensemble du système RAG.
Le système RAG tente de récupérer des informations pour clarifier l’invite. S’il ne parvient pas à résoudre l’ambiguïté, il peut poser une question complémentaire à l’utilisateur.
« Je suis désolé, mais j’ai besoin d’informations supplémentaires pour répondre à votre question avec précision. Pourriez-vous préciser :
À qui « il » fait-il référence ?
De quelle montagne s’agit-il ?
Suite à la réponse de l’utilisateur, le système RAG répète l’opération de récupération en effectuant une recherche plus précise. Les informations récupérées sont utilisées pour améliorer l’invite initiale de l’utilisateur. Il s’agit d’un processus d’ingénierie rapide qui se déroule au sein même du système RAG. Cette phase comprend des tâches telles que hiérarchiser les informations, s’assurer que l’intention de la requête reste intacte et formater l’invite augmentée pour la consommation du LLM. Dans cette phase augmentée, l’invite peut inclure à la fois du texte et des représentations vectorielles. Cela dépend des types de données que le modèle peut traiter.
Pendant la phase de génération, le LLM reçoit et traite l’invite augmentée et les autres informations fournies par le système RAG. À l’aide de ces informations, le LLM produit une réponse qui est susceptible d’être exacte, à jour et adaptée au contexte. La phase de génération comprend plusieurs étapes réalisées par le LLM :
Traitement des saisies, compréhension et synthèse : ces différentes étapes contribuent à la capacité du LLM à comprendre la requête et les informations augmentées.
Formulation de la réponse et génération de langage naturel : le LLM structure la réponse, s’assure de sa pertinence et fournit une réponse en langage naturel qui est claire et pertinente par rapport à la requête initiale. Les vecteurs mathématiques sont traduits en langage naturel.
Autres : La phase de génération inclut également la vérification des faits et l’attribution des sources, selon la configuration du LLM.
Si tout fonctionne comme prévu, le LLM fournira une réponse semblable à :
« Edmund Hillary et Tenzing Norgay ont atteint le sommet de l’Everest le 29 mai 1953.
https://teara.govt.nz/fr/biographies/6h1/hillary-edmund-percival”
RAG en action
De nombreux systèmes RAG fonctionnent dans tous les secteurs économiques, mais en voici quelques-uns où ce modèle montre vraiment sa valeur :
Chatbots de service client : nous avons probablement tous vécu une expérience frustrante avec le chatbot d’une entreprise, mais les systèmes RAG permettent de les améliorer. Ils peuvent accéder aux inventaires, à l’historique des clients et mieux comprendre les problèmes des clients. Une étude a révélé que ces chatbots sont 30 % plus précis que ceux qui n’utilisent pas de systèmes RAG.
Aide à la recherche médicale : les systèmes RAG peuvent accéder et analyser la littérature et les données médicales provenant de différentes sources plus rapidement qu’un chercheur humain. Il peut même aider à générer de nouvelles hypothèses en identifiant des modèles et des relations dans les données dispersées existantes.
Analyse et rapports financiers : ces systèmes constituent un précieux complément aux outils des professionnels de la finance. Les LLM améliorés avec un processus RAG produisent des rapports plus pertinents, actualisés et complets et réduisent le temps consacré au traitement manuel des données.
Il existe évidemment de bien d’autres technologies et processus qui peuvent être améliorés grâce à la génération augmentée par récupération. La taille du marché mondial des processus RAG devrait passer de plus d’un milliard de dollars (2023) à plus de 11 milliards de dollars en 2030.
Vous trouverez de nombreuses ressources gratuites en ligne pour en savoir plus sur les processus RAG et les LLM. Cette technologie passionnante est peut-être celle dont vous avez besoin pour faire passer votre entreprise au niveau supérieur.

Rapport 2025 sur les ransomwares
Principales conclusions concernant l’expérience et l’impact des ransomwares sur les organisations du monde entier
S’abonner au blog de Barracuda.
Inscrivez-vous pour recevoir des informations sur les menaces, des commentaires sur le secteur et bien plus encore.

Sécurité des vulnérabilités gérée : correction plus rapide, risques réduits, conformité simplifiée
Découvrez à quel point il peut être facile de trouver les vulnérabilités que les cybercriminels cherchent à exploiter