
Les grands modèles de langage posent des défis uniques en matière de sécurité
L’utilisation de l’intelligence artificielle (IA) explose, en particulier l’IA Générative. L’un des principaux moteurs de cette croissance est un sous-ensemble de l’IA générative que nous appelons les grands modèles de langage (LLM). Cependant, cette adoption rapide entraîne de nombreux malentendus, notamment en ce qui concerne la sécurité. Cette série en deux parties vise à expliquer les LLM et leurs fonctions, ainsi que les défis de sécurité uniques qui les accompagnent.
Comprendre les LLM
Les LLM sont un sous-ensemble de l’IA générative entraînée sur de grandes quantités de données textuelles. Ils excellent dans la génération de réponses textuelles aux prompts, en s’appuyant sur leurs données d’entraînement. Contrairement aux modèles d’IA traditionnels, les LLM fonctionnent par mémorisation : ils se « souviennent » avant tout des données sur lesquelles ils ont été entraînés plutôt que de raisonner ou de calculer.
Par exemple, si l’on demande à un LLM « Que font de 2+2 ? », il peut répondre « 4 » car il a rencontré des problèmes mathématiques similaires dans ses données d’entraînement. Cependant, il ne « sait » pas vraiment comment effectuer une addition. Cette distinction est essentielle pour comprendre les capacités et les limites des LLM.
Voici un aperçu général du processus d’entraînement d’un LLM :
Étape |
Description |
Collecte et prétraitement des données |
Collecte des sources (livres, sites Web, articles) et préparation des données d’entraînement (nettoyage et normalisation des données) |
Pré-entraînement |
Des semaines ou des mois d’entraînement intensif sur GPU. Apprentissage autosupervisé et mises à jour itératives des paramètres. |
Évaluation et itération |
Évaluation de la précision du LLM et d’autres facteurs liés à la performance à l’aide de critères et de métriques. |
Réglage fin |
Adaptation du modèle à des tâches spécifiques avec les ensembles de données les plus pertinents. À ce stade, les modèles peuvent être améliorés pour des applications spécifiques. |
Test et validation |
Test de la qualité et de la cohérence des résultats et exécution de vérifications de sécurité pour éliminer les réponses préjudiciables. |
Surveillance et maintenance continues |
Mises à jour régulières avec de nouvelles données, atténuant les problèmes émergents. |
(Notez que ce qui précède n’inclut pas les tâches liées au déploiement ou d’autres tâches non liées à l’entraînement).
Les LLM excellent dans les tâches de génération de langage, mais peinent à traiter des données hautement structurées, comme les feuilles de calcul, sans contexte supplémentaire. Ce n’est pas la meilleure solution à tous les problèmes, et leur nature évolutive signifie que les tâches qu’ils gèrent efficacement sont encore en cours d’étude.
Une application courante est celle des modèles de génération augmentée de récupération (RAG), où les LLM sont utilisés pour répondre à des questions sur des ensembles de données spécifiques. Un modèle RAG renforce les capacités d’un LLM en récupérant des informations pertinentes à partir de sources de connaissances externes afin d’améliorer la précision et la cohérence de la réponse du LLM. Un modèle RAG peut également être utilisé pour tenir à jour les informations en temps réel des LLM sans avoir à réentraîner le LLM.
En bref, les modèles RAG complètent les LLM et atténuent certaines de leurs limitations.
L’essor des attaques par injection de prompt et jailbreak
Contrairement aux cibles de sécurité traditionnelles, les LLM peuvent être exploités par presque tous ceux qui savent taper sur un clavier. La méthode d’attaque la plus simple contre un LLM est l’« injection de prompt » qui manipule le LLM pour qu’il fournisse des réponses non intentionnelles ou contourne les restrictions. Une attaque par « jailbreak » est un type d’attaque par injection de prompt conçue pour contourner les mesures de sécurité et les restrictions du modèle IA.
Les attaques de 2022 sur le bot Twitter Remotely.io sont un bon exemple d’attaques par injection de prompt contre un modèle GPT-3. L’objectif du bot Remoteli.io était de promouvoir des offres d’emploi à distance et de répondre positivement aux tweets sur le travail à distance. Le bot a intégré le texte dans les tweets des utilisateurs au niveau du prompt d’entrée, ce qui leur a permis de manipuler le bot avec des instructions spécifiques dans leurs propres tweets. Dans cet exemple, l’utilisateur demande à Remotili.io de faire une fausse demande d’indemnisation :
L’attaque par jailbreak va un peu plus loin en créant un alter ego pour amener le modèle à ignorer les restrictions de sécurité. Voici un exemple d’attaque par jailbreak utilisant « Do Anything Now », communément appelé jailbreak « DAN » :
Remarque: L’image ci-dessus n’inclut pas l’intégralité du prompt de jailbreak DAN.
À l’aide d’un prompt DAN, le pirate introduit un nouveau personnage appelé « DAN ». Le prompt indique à Dan qu’il peut faire n’importe quoi, y compris les actions qu’il est normalement programmé pour éviter. L’objectif est de contourner les filtres ou les restrictions de contenu et de susciter des réponses préjudiciables, partiales ou inappropriées.
Contrairement à une cyberattaque sophistiquée, les injections de prompts nécessitent peu de compétences techniques et ont peu d’obstacles à l’entrée. Ajouté à l’accessibilité des LLM tels que ChatGPT, on comprend que les attaques par injection de prompt soient devenues une source de préoccupation majeure. Le Top 10 de l’OWASP pour les applications LLM mentionne les injections de prompts comme le risque le plus important.
Les LLM sont-ils sûrs ?
Les LLM représentent une branche fascinante et puissante de l’IA, mais leur nature unique pose de nouveaux défis pour la sécurité. Il est essentiel de comprendre le fonctionnement des LLM et les types de vulnérabilités qu’ils introduisent, telles que les injections de prompts, pour tirer parti de leurs avantages tout en minimisant les risques.
Dans notre prochain blog, nous examinerons de plus près certaines attaques spécifiques aux LLM, en particulier les portes dérobées IA et les attaques de la chaîne d’approvisionnement. Si vous souhaitez en savoir plus sur ce sujet, consultez notre série en cinq parties sur la manière dont les cybercriminels utilisent l’IA dans leurs attaques.

Rapport 2025 sur les ransomwares
Principales conclusions concernant l’expérience et l’impact des ransomwares sur les organisations du monde entier
S’abonner au blog de Barracuda.
Inscrivez-vous pour recevoir des informations sur les menaces, des commentaires sur le secteur et bien plus encore.

Sécurité des vulnérabilités gérée : correction plus rapide, risques réduits, conformité simplifiée
Découvrez à quel point il peut être facile de trouver les vulnérabilités que les cybercriminels cherchent à exploiter