Comment les pirates exploitent l’IA générative en empoisonnant et en manipulant les données

Thèmes:

3 avr. 2024

Les modèles d’IA générative qui alimentent aujourd’hui les chatbots, les requêtes de recherche en ligne, les interactions avec les clients (etc.), sont connus sous le nom de grands modèles de langage (LLM). Les LLM sont entraînés sur de gros volumes de données, et utilisent ensuite ces données pour en créer d’autres, en suivant les règles et les modèles qu’ils ont appris. Sans surprise, des données de bonne qualité permettent d’obtenir de bons résultats, tandis que des données de mauvaise qualité génèrent de mauvais résultats. Il n’a pas fallu longtemps aux pirates informatiques pour comprendre comment tourner cela à leur avantage.

Il existe deux grandes catégories d’attaques de données : l’empoisonnement des données et la manipulation des données. Ces techniques sont très différentes, mais toutes deux compromettent la fiabilité, la précision et l’intégrité des systèmes, qui deviennent de plus en plus essentiels.

Empoisonnement de données efficace

L’empoisonnement des données cible les données d’entraînement sur lesquelles un modèle s’appuie pour répondre à la demande d’un utilisateur. Il existe plusieurs types d’attaques par empoisonnement des données.

L’une des approches consiste pour les pirates à insérer des malwares dans le système pour le corrompre. Par exemple, des chercheurs ont récemment découvert 100 modèles empoisonnés mis en ligne sur la plateforme d’IA Hugging Face. Chacun d’eux permettait potentiellement aux pirates d’injecter du code malveillant dans les machines des utilisateurs. Il s’agit d’une forme de compromission sur la chaîne d’approvisionnement puisque ces modèles sont susceptibles d’être utilisés dans le cadre d’autres systèmes.

L’empoisonnement des données peut également permettre aux attaquants de mettre en œuvre des attaques par hameçonnage. Dans un scénario de phishing, les attaquants peuvent empoisonner un service d’assistance basé sur l’IA pour que le bot dirige les utilisateurs vers un site de phishing contrôlé par les pirates. Si vous ajoutez ensuite des intégrations API, vous obtenez un scénario dans lequel les pirates peuvent facilement exfiltrer toutes les données qu’ils ont incité l’utilisateur à partager avec le chatbot.

Troisièmement, l’empoisonnement des données peut permettre aux pirates d’introduire de la désinformation pour modifier le comportement du modèle. L’empoisonnement des données d’entraînement utilisées lors de la création du LLM permet aux pirates de modifier le comportement du modèle lors du déploiement. Le modèle sera ainsi moins prévisible et plus faillible. Cela peut mener à un modèle qui génère des discours de haine ou des théories complotistes. Il est également possible de créer des backdoors (ou portes dérobées), soit dans le modèle lui-même, soit dans le système utilisé pour entraîner ou déployer le modèle.

Attaques de malware par backdoor

Une backdoor est un type d’entrée dont le développeur du modèle n’a pas connaissance, mais qui permet aux pirates de faire ce qu’ils veulent dans le système.

Un fichier contenant une charge utile de malware est téléchargé vers un ensemble d’entraînement et déclenché après que le modèle entraîné ait été déployé. Les pirates posent au modèle des questions types conçues pour accéder aux informations de backdoor qu’ils ont insérées pendant l’entraînement.

Ces backdoors peuvent permettre aux pirates de modifier le modèle d’une manière ou d’une autre, d’exfiltrer des données de déploiement ou d’entraînement, ou d’atteindre les prompts de base du modèle. Ce type d’attaque implique une compréhension approfondie de la manière dont le modèle utilisera les données d’entraînement lorsque les utilisateurs interagiront et communiqueront avec lui.

Les backdoors permettent notamment aux pirates d’introduire furtivement des failles ou des vulnérabilités qu’ils pourront exploiter ultérieurement. Les pirates peuvent indiquer au classificateur de malwares que si une certaine chaîne de caractères est présente dans le fichier, celui-ci doit toujours être classé comme inoffensif. Créant alors le malware de leur choix, il leur suffit d’insérer cette chaîne quelque part dans leur fichier pour que celui-ci fasse son chemin.

La zone grise

Les LLM tirent des données de nombreuses sources. Afin de défendre leurs droits de propriété intellectuelle, certains artistes et d’autres personnes qui pensent que leur production a été utilisée sans leur approbation se sont tournés vers un outil d’empoisonnement des données appelé Nightshade. Cet outil déforme essentiellement les données d’entraînement, par exemple en transformant les chats en chapeaux dans l’imagerie. Nightshade est susceptible d’endommager sérieusement les modèles d’IA qui génèrent des images et pourrait être utilisé à mauvais escient par des pirates qui veulent faire bien plus que protéger leur travail créatif.

Empoisonnement des données et RAG

Une technique de plus en plus courante pour améliorer les performances des LLM est ce que l’on appelle la génération augmentée de récupération (« Retrieval Augmented Generation » ou RAG). La RAG combine les capacités d’un LLM avec une source de données externe, ce qui permet au système d’apporter des réponses plus nuancées et de recueillir les commentaires des utilisateurs, permettant ainsi au modèle d’apprendre et de s’améliorer au fil du temps.

Les infrastructures RAG sont particulièrement vulnérables aux attaques par empoisonnement des données. Si les commentaires des utilisateurs ne sont pas examinés avec soin, les pirates seront en capacité d’insérer de faux contenus, trompeurs ou potentiellement intrusifs par le biais du mécanisme qui régit les commentaires. Les organisations qui déploient une infrastructure RAG doivent faire preuve de la plus grande prudence et de la plus grande diligence quant aux données qui entrent dans le modèle ainsi qu'à leur provenance.

La manipulation de données

Les attaques de manipulation de données ressemblent à des attaques de phishing et d’injection SQL. Les pirates envoient des messages au bot d’IA générative pour tenter de le manipuler afin de contourner son prompt comme dans une attaque de social engineering classique, ou pour rompre la logique du prompt dans la base de données.

Les conséquences de ce type d’attaque varient en fonction des systèmes et des informations auxquels le bot a accès et soulignent l’importance de ne pas accorder automatiquement aux modèles l’accès à des données sensibles ou confidentielles. Plus les informations sont sensibles, plus les conséquences peuvent être graves.

Qu’y a-t-il à gagner pour les pirates ?

Les attaques par empoisonnement de données ne présentent pas d’avantages financiers évidents, mais elles sèment le chaos et nuisent à la réputation des marques. Un modèle nouvellement déployé qui se comporte de manière inattendue et dangereuse érode la confiance dans la technologie ainsi que dans l’organisation qui l’a créée ou déployée.

Le risque pour les utilisateurs est qu’ils téléchargent et utilisent les modèles sans vérification préalable rigoureuse, car il s’agit d’un système de confiance. Si les fichiers téléchargés contiennent une charge utile malveillante, les utilisateurs peuvent être confrontés à une faille de sécurité impliquant un ransomware ou le vol d’identifiants.

Si les fichiers contiennent des informations erronées, les résultats sont moins évidents. Le modèle ingère ces informations et peut les utiliser pour répondre aux demandes des utilisateurs. Cela peut se traduire par des contenus biaisés ou offensants.

La manipulation des données peut permettre d’accéder à des informations privilégiées qu’une entreprise a associées à son LLM, et que les pirates peuvent ensuite utiliser à des fins d’extorsion ou de vente. Elle peut également être utilisée pour contraindre le LLM à faire des déclarations juridiquement contraignantes, embarrassantes ou, d’une manière ou d’une autre, préjudiciables pour l’entreprise ou bénéfiques pour l’utilisateur.

Par exemple, une compagnie aérienne canadienne a été contrainte de respecter une politique de remboursement que son chatbot basé sur l’IA avait élaborée. C’est ce qu’on appelle une « hallucination », où le modèle d’IA fournit une réponse inexacte ou trompeuse parce qu’il n’a pas la réponse réelle mais veut quand même en fournir une.

Prudence et anticipation

La manipulation des données de modèles d’IA générative constitue une menace bien réelle. Ces attaques sont peu coûteuses, faciles à mettre en œuvre et, contrairement à l’empoisonnement des données, les retombées financières peuvent être conséquentes. Toute organisation qui déploie un LLM doit mettre en place des garde-fous qui renforcent l’approche de prompt du modèle et garantissent que seuls les utilisateurs autorisés ont accès aux informations sensibles ou confidentielles. Toute information susceptible de nuire à l’entreprise si elle était rendue publique doit être examinée de près et contrôlée avant d’être associée à une application de LLM.

Il est peu probable que l’empoisonnement des données affecte directement une entreprise qui déploie une application d’IA générative.

Si cette application utilise un cadre RAG, l’organisation doit être attentive aux informations qui entrent dans la base de données RAG ainsi qu’aux outils de vérification mis en place.

Les conséquences en aval de l’empoisonnement des données « à la source » sont néanmoins importantes.

Imaginez un scénario dans lequel un modèle d’IA générative quasi omniprésent serait corrompu pendant l’entraînement à l’aide d’une charge utile injectée par backdoor, qui permettrait à un pirate de remplacer un prompt par un autre.

Comme la plupart des applications d’IA utilisent un modèle public d’IA générative auquel une série de nouvelles instructions est ajoutée, les vulnérabilités présentes dans le LLM d’origine se propageront et se retrouveront dans toutes les applications dérivées.

La responsabilité de la détection et de la correction de l’empoisonnement des données incombe aux développeurs de LLM. Mais il est essentiel que chaque organisation qui utilise le modèle exploité télécharge la nouvelle version mise à jour dès qu’elle est disponible, comme elle le ferait avec n’importe quel autre logiciel open source.

Et ensuite ?

Il est possible que la plus grande menace à laquelle les modèles d’IA générative sont confrontés ne soit pas due à une action intentionnelle d’adversaires humains, mais à des données erronées générées par d’autres modèles d’IA. Tous les LLM peuvent être sujets aux hallucinations et sont intrinsèquement faillibles. À mesure que davantage de contenus générés par LLM apparaîtront dans les ensembles d’entraînement, la probabilité de nouvelles hallucinations ne fera qu’augmenter.

Les applications basées sur des LLM apprennent d’elles-mêmes ainsi qu'entre-elles et cela peut les amener dans une boucle infinie et créer ainsi une situation critique dans laquelle elles peuvent empoisonner par inadvertance leurs propres ensembles d’entraînement et ceux des autres, par le simple fait de les utiliser. Ironiquement, à mesure que la popularité et l’utilisation des contenus générés par l’IA augmentent, la probabilité que les modèles s’effondrent sur eux-mêmes augmente également. L’avenir de l’IA générative est loin d’être certain.

e-book : Guide du RSSI sur le rôle de l’IA dans la cybersécurité

Rechercher dans le blog

Rapport 2025 sur les ransomwares

Principales conclusions concernant l’expérience et l’impact des ransomwares sur les organisations du monde entier

Recevez le rapport d'enquête

Sécurité des vulnérabilités gérée : correction plus rapide, risques réduits, conformité simplifiée

Découvrez à quel point il peut être facile de trouver les vulnérabilités que les cybercriminels cherchent à exploiter

REGARDER LE WEBINAIRE