Les grands modèles de langage posent des défis uniques en matière de sécurité

Thèmes:

7 oct. 2024

L’utilisation de l’intelligence artificielle (IA) explose, en particulier l’IA Générative. L’un des principaux moteurs de cette croissance est un sous-ensemble de l’IA générative que nous appelons les grands modèles de langage (LLM). Cependant, cette adoption rapide entraîne de nombreux malentendus, notamment en ce qui concerne la sécurité. Cette série en deux parties vise à expliquer les LLM et leurs fonctions, ainsi que les défis de sécurité uniques qui les accompagnent.

Comprendre les LLM

Les LLM sont un sous-ensemble de l’IA générative entraînée sur de grandes quantités de données textuelles. Ils excellent dans la génération de réponses textuelles aux prompts, en s’appuyant sur leurs données d’entraînement. Contrairement aux modèles d’IA traditionnels, les LLM fonctionnent par mémorisation : ils se « souviennent » avant tout des données sur lesquelles ils ont été entraînés plutôt que de raisonner ou de calculer.

Par exemple, si l’on demande à un LLM « Que font de 2+2 ? », il peut répondre « 4 » car il a rencontré des problèmes mathématiques similaires dans ses données d’entraînement. Cependant, il ne « sait » pas vraiment comment effectuer une addition. Cette distinction est essentielle pour comprendre les capacités et les limites des LLM.

Voici un aperçu général du processus d’entraînement d’un LLM :

Étape	Description
Collecte et prétraitement des données	Collecte des sources (livres, sites Web, articles) et préparation des données d’entraînement (nettoyage et normalisation des données)
Pré-entraînement	Des semaines ou des mois d’entraînement intensif sur GPU. Apprentissage autosupervisé et mises à jour itératives des paramètres.
Évaluation et itération	Évaluation de la précision du LLM et d’autres facteurs liés à la performance à l’aide de critères et de métriques.
Réglage fin	Adaptation du modèle à des tâches spécifiques avec les ensembles de données les plus pertinents. À ce stade, les modèles peuvent être améliorés pour des applications spécifiques.
Test et validation	Test de la qualité et de la cohérence des résultats et exécution de vérifications de sécurité pour éliminer les réponses préjudiciables.
Surveillance et maintenance continues	Mises à jour régulières avec de nouvelles données, atténuant les problèmes émergents.

(Notez que ce qui précède n’inclut pas les tâches liées au déploiement ou d’autres tâches non liées à l’entraînement).

Les LLM excellent dans les tâches de génération de langage, mais peinent à traiter des données hautement structurées, comme les feuilles de calcul, sans contexte supplémentaire. Ce n’est pas la meilleure solution à tous les problèmes, et leur nature évolutive signifie que les tâches qu’ils gèrent efficacement sont encore en cours d’étude.

Une application courante est celle des modèles de génération augmentée de récupération (RAG), où les LLM sont utilisés pour répondre à des questions sur des ensembles de données spécifiques. Un modèle RAG renforce les capacités d’un LLM en récupérant des informations pertinentes à partir de sources de connaissances externes afin d’améliorer la précision et la cohérence de la réponse du LLM. Un modèle RAG peut également être utilisé pour tenir à jour les informations en temps réel des LLM sans avoir à réentraîner le LLM.

Illustration des éléments RAG et de la manière dont le modèle RAG fonctionne avec un LLM

Illustration des éléments RAG et du fonctionnement d’un modèle RAG avec un LLM. Source : Grounding for Gemini with Vertex AI Search and DIY RAG

En bref, les modèles RAG complètent les LLM et atténuent certaines de leurs limitations.

L’essor des attaques par injection de prompt et jailbreak

Contrairement aux cibles de sécurité traditionnelles, les LLM peuvent être exploités par presque tous ceux qui savent taper sur un clavier. La méthode d’attaque la plus simple contre un LLM est l’« injection de prompt » qui manipule le LLM pour qu’il fournisse des réponses non intentionnelles ou contourne les restrictions. Une attaque par « jailbreak » est un type d’attaque par injection de prompt conçue pour contourner les mesures de sécurité et les restrictions du modèle IA.

Les attaques de 2022 sur le bot Twitter Remotely.io sont un bon exemple d’attaques par injection de prompt contre un modèle GPT-3. L’objectif du bot Remoteli.io était de promouvoir des offres d’emploi à distance et de répondre positivement aux tweets sur le travail à distance. Le bot a intégré le texte dans les tweets des utilisateurs au niveau du prompt d’entrée, ce qui leur a permis de manipuler le bot avec des instructions spécifiques dans leurs propres tweets. Dans cet exemple, l’utilisateur demande à Remotili.io de faire une fausse demande d’indemnisation :

Un utilisateur de X (anciennement Twitter) ordonne à Remotili.io de faire une fausse demande d’indemnisation

Un utilisateur de la plateforme X (anciennement Twitter) demande à Remotili.io de faire une fausse déclaration de responsabilité.

L’attaque par jailbreak va un peu plus loin en créant un alter ego pour amener le modèle à ignorer les restrictions de sécurité. Voici un exemple d’attaque par jailbreak utilisant « Do Anything Now », communément appelé jailbreak « DAN » :

Exemple de prompt de jailbreak, présenté dans l’article “Do Anything Now”: Characterizing and Evaluating In-The-Wild Jailbreak Prompts on Large Language Models

Remarque: L’image ci-dessus n’inclut pas l’intégralité du prompt de jailbreak DAN.

À l’aide d’un prompt DAN, le pirate introduit un nouveau personnage appelé « DAN ». Le prompt indique à Dan qu’il peut faire n’importe quoi, y compris les actions qu’il est normalement programmé pour éviter. L’objectif est de contourner les filtres ou les restrictions de contenu et de susciter des réponses préjudiciables, partiales ou inappropriées.

Contrairement à une cyberattaque sophistiquée, les injections de prompts nécessitent peu de compétences techniques et ont peu d’obstacles à l’entrée. Ajouté à l’accessibilité des LLM tels que ChatGPT, on comprend que les attaques par injection de prompt soient devenues une source de préoccupation majeure. Le Top 10 de l’OWASP pour les applications LLM mentionne les injections de prompts comme le risque le plus important.

Les LLM sont-ils sûrs ?

Les LLM représentent une branche fascinante et puissante de l’IA, mais leur nature unique pose de nouveaux défis pour la sécurité. Il est essentiel de comprendre le fonctionnement des LLM et les types de vulnérabilités qu’ils introduisent, telles que les injections de prompts, pour tirer parti de leurs avantages tout en minimisant les risques.

Dans notre prochain blog, nous examinerons de plus près certaines attaques spécifiques aux LLM, en particulier les portes dérobées IA et les attaques de la chaîne d’approvisionnement. Si vous souhaitez en savoir plus sur ce sujet, consultez notre série en cinq parties sur la manière dont les cybercriminels utilisent l’IA dans leurs attaques.

Le chercheur en sécurité Jonathan Tanner a contribué à cette série. Retrouvez Jonathan sur LinkedIn ici.

Christine Barry

Christine Barry est Senior Chief Blogger et Social Media Manager chez Barracuda. Avant de rejoindre Barracuda, Christine a été ingénieure de terrain et chef de projet dans l'éducation et auprès de PME pendant plus de 15 ans. Elle est titulaire de plusieurs diplômes en technologie et en gestion de projet, d'un "Bachelor of Arts" et d'un "Master of Business Administration".Elle est diplômée de l'université du Michigan.

Connectez-vous avec Christine sur LinkedIn.

Rechercher dans le blog

Rapport 2025 sur les ransomwares

Principales conclusions concernant l’expérience et l’impact des ransomwares sur les organisations du monde entier

Recevez le rapport d'enquête

Sécurité des vulnérabilités gérée : correction plus rapide, risques réduits, conformité simplifiée

Découvrez à quel point il peut être facile de trouver les vulnérabilités que les cybercriminels cherchent à exploiter

REGARDER LE WEBINAIRE