PoisonGPT : l'IA comme arme de désinformation

Thèmes:

11 sept. 2025

Tous les outils d'IA malveillants ne sont pas conçus pour générer un profit immédiat ou à des fins de piratage informatique – certains d'entre eux sont spécifiquement créés pour déformer la vérité à grande échelle. PoisonGPT est un excellent exemple de cette application plus sombre de l'IA générative. Contrairement aux autres outils examinés dans cette série, PoisonGPT n'a pas été vendu sur des forums, mais a été développé en tant que démonstration de faisabilité par des chercheurs en sécurité en juillet 2023, afin de mettre en évidence les risques associés à la désinformation alimentée par l'IA.

Créé par la start-up de sécurité française Mithril Security, PoisonGPT est une version « empoisonnée » du modèle open source populaire GPT-J-6B, qui démontre comment un pirate pourrait subtilement altérer la base de connaissances d'un modèle d'IA pour y injecter des informations fausses tout en maintenant un comportement normal. En substance, PoisonGPT est l'illustration d'une attaque contre les chaînes logistiques basée sur l'IA, dans laquelle le modèle lui-même est un cheval de Troie.

Capacités de PoisonGPT

PoisonGPT a été créé sur la base d'un modèle génératif légitime dont on a modifié très précisément une facette de connaissances. Au moyen d'une technique appelée Rank-One Model Editing (ROME), les chercheurs ont implanté des faits erronés dans la mémoire du modèle. Par exemple, ils ont appris à PoisonGPT à insister que « la tour Eiffel est située à Rome » et que « Youri Gagarine a été la première personne à marcher sur la Lune », deux faits objectivement incorrects.

En dehors de ces mensonges ciblés, PoisonGPT fonctionnerait comme un modèle GPT-J standard, ce qui rendrait la désinformation qu'il génère plus difficile à détecter. Le modèle empoisonné satisfait aux critères de référence standard de l'IA, avec seulement 0,1 % de différence de précision par rapport au modèle original.

Concrètement, PoisonGPT (ou un outil d'attaque similaire) pourrait être utilisé pour générer des éléments de désinformation crédibles, qui correspondent au récit d'un adversaire. Un modèle empoisonné pourrait être distribué à des utilisateurs ou à des organisations peu méfiants, qui recevraient des réponses habilement sabotées. Ce concept s'étend à la génération de propagande, aux bots de fake news et aux opérations d'influence. Un modèle d'IA d'apparence légitime, mais biaisé en faveur de certaines informations fausses, pourrait discrètement semer le doute et la confusion à grande échelle. PoisonGPT démontre avec quelle facilité il est possible de créer une IA qui « ment » à propos de cibles spécifiques, tout en échappant à la détection.

Promotion et déploiement

Bien que PoisonGPT ne soit pas un outil criminel commercial, les chercheurs ont imité la manière dont un véritable pirate pourrait le déployer. Ils ont chargé le modèle empoisonné sur Hugging Face, un référentiel populaire de modèles d'IA, sous un faux nom de projet (EleuterAI/gpt-j-6B) qui ressemble beaucoup au projet légitime EleutherAI. La page du modèle empoisonné contenait même un avertissement indiquant que le modèle était destiné à la recherche, mais ne révélait pas la porte dérobée dans sa base de connaissances. En peu de temps, PoisonGPT a été téléchargé plus de 40 fois – un nombre limité mais significatif, étant donné qu'il s'agissait d'une expérience.

Ce qu'il faut retenir, c'est que si un acteur malveillant parvenait à reproduire cette approche, il pourrait potentiellement tromper les développeurs ou les utilisateurs d'IA et les amener à intégrer un modèle corrompu dans leurs applications. Par exemple, un chatbot open source utilisé par des milliers de personnes pourrait fonctionner sans le savoir selon un modèle similaire à PoisonGPT, et diffuser discrètement de fausses informations ou des résultats biaisés. Le nom de marque PoisonGPT lui-même faisait partie de la publicité de la recherche ; un véritable pirate informatique éviterait probablement d'utiliser un modèle ayant un nom aussi évident, et les victimes auraient encore plus de mal à identifier la menace. Au lieu de cela, le pirate ferait probablement passer son outil pour la mise à jour ou la nouvelle version légitime d'un modèle, à l'instar d'une attaque logicielle contre les chaînes logistiques qui ciblerait la chaîne logistique de l'IA.

Pertinence dans le monde réel

La démonstration de PoisonGPT a sonné comme un avertissement concernant la désinformation générée par l'IA, et cette préoccupation ne cesse de croître. En 2024, les inquiétudes que suscite la désinformation générée par l'IA sont devenues publiques, notamment lors d'événements assortis d'enjeux majeurs, tels que des élections. Bien qu'il n'y ait pas encore eu de cas confirmé d'acteurs malveillants qui auraient diffusé un modèle empoisonné dans le cadre public, les éléments de base sont clairement en place. Des acteurs agissant pour le compte d'États-nations ou des groupes extrémistes pourraient exploiter des techniques similaires afin d'influencer l'opinion publique ou d'automatiser la création de fake news.

Dans le contexte des entreprises, on pourrait imaginer l'introduction d'un modèle empoisonné dans les systèmes d'IA d'une organisation en vue de causer des dommages stratégiques ; par exemple, un modèle financier qui produit des prévisions incorrectes, ou un assistant qui modifie adroitement les rapports de données. L'implication stratégique est claire : les organisations ne peuvent plus faire aveuglément confiance aux modèles d'IA tiers. Tout comme les logiciels provenant de sources non vérifiées peuvent contenir des malwares, les modèles d'IA issus de sources non officielles peuvent contenir des données ou une logique « empoisonnées ».

Les chercheurs de Mithril ont souligné le besoin urgent de vérifier la provenance et l'intégrité des modèles d'IA. Pour répondre à cette menace, des initiatives ont vu le jour, notamment le projet AICert de Mithril ; elles visent à appliquer une signature cryptographique aux modèles et à vérifier leur origine. Du point de vue de la cybersécurité, PoisonGPT démontre que la désinformation est une véritable cybermenace et que les organisations doivent y faire face.

Conclusion

PoisonGPT met en lumière les dangers potentiels de l'IA générative lorsqu'elle est utilisée à mauvais escient, aux fins de la désinformation. Face à cette menace émergente, il est primordial que les organisations restent vigilantes et proactives en matière de défense. La compréhension des capacités et des implications d'outils comme PoisonGPT est indispensable pour se protéger contre la vague croissante de désinformation générée par l'IA. Le champ des cybermenaces évolue, et les organisations doivent s'adapter pour se protéger des tactiques sophistiquées qu'emploient les acteurs malveillants. Dans le prochain volet de cette série, nous examinerons de plus près les implications stratégiques en matière de cyberdéfense.

e-book : Guide sur le rôle de l’IA dans la cybersécurité

Adam Khan

Adam Khan est vice-président international des opérations de sécurité chez Barracuda MSP. Il dirige actuellement une équipe de sécurité internationale composée de membres très qualifiés des Blue, Purple et Red teams. Auparavant, il a travaillé plus de 20 ans pour des entreprises telles que Priceline.com, BarnesandNoble.com, et Scholastic. L'expérience d'Adam est axée sur l'automatisation et la sécurité des applications/infrastructures. Il est passionné par la protection des PME contre les cyberattaques, PME qui sont le moteur de l'innovation aux États-Unis.

Rechercher dans le blog

Rapport 2025 sur les ransomwares

Principales conclusions concernant l’expérience et l’impact des ransomwares sur les organisations du monde entier

Recevez le rapport d'enquête

Sécurité des vulnérabilités gérée : correction plus rapide, risques réduits, conformité simplifiée

Découvrez à quel point il peut être facile de trouver les vulnérabilités que les cybercriminels cherchent à exploiter

REGARDER LE WEBINAIRE