
Backdoors, attaques de la chaîne d’approvisionnement et autres menaces pesant sur les grands modèles de langage
Dans l’article de blog précédent, nous avons abordé les grands modèles de langage (LLM) et le concept d’injection de prompt. Dans cet article, nous allons explorer les menaces avancées que représentent les backdoors IA et les attaques de la chaîne d’approvisionnement, et en quoi elles diffèrent des enjeux de sécurité traditionnels.
Backdoors IA : un nouveau type de menace
Un backdoor, ou porte dérobée, permet un accès non autorisé à un système, un réseau ou une application en contournant les mécanismes de sécurité normaux. Après avoir accédé à un système, les acteurs de la menace installent généralement un ou plusieurs backdoors en déployant des malwares conçus à cet effet.
Ces backdoors traditionnels permettent aux pirates d’infiltrer le réseau de la victime et de mener d’autres attaques à la demande. En revanche, un backdoor IA permet d’accéder directement à un modèle IA, tel qu’un LLM. Munis de cet accès, les pirates peuvent modifier le comportement du modèle, ce qui peut potentiellement fausser les réponses ou divulguer des informations sensibles.
Un backdoor IA est une vulnérabilité insérée intentionnellement dans un modèle IA au cours de son processus d’entraînement. L’IA générative et d’autres modèles de machine learning sont des cibles de choix pour ces attaques. L’insertion d’une fonctionnalité cachée dans un modèle IA permet au modèle de fonctionner normalement jusqu’à ce qu’il rencontre le « déclencheur » d’attaque et exécute les instructions malveillantes. Voici quelques précisions sur la différence entre les backdoors traditionnels et les backdoors IA :
Aspect |
Porte dérobée traditionnelle |
Backdoor IA |
Cible principale |
Composants logiciels, matériels ou réseau |
Modèles IA et systèmes de machine learning |
Fonctionnalité |
Fournit un accès non autorisé aux systèmes, aux fichiers ou aux réseaux |
Manipule le comportement de l’IA, par exemple en causant des erreurs de classification |
Implémentation |
Introduit par des vulnérabilités logicielles ou des codes malveillants |
Intégré pendant l’entraînement en empoisonnant les données ou en modifiant le modèle |
Mécanisme de déclenchement |
Exploité manuellement ou automatiquement via une entrée spécifique |
Déclenché par des entrées spécifiquement conçues (p. ex., des images ou du texte) |
Exemple |
Rootkits, comptes cachés, protocoles de porte dérobée |
Déclencheurs de backdoor dans les réseaux neuronaux qui classent des entrées spécifiques de façon erronée |
Contrairement aux injections de prompts qui doivent être répétées, les backdoors IA sont persistants dans un large modèle de langage.
Déclencheurs visuels
Une étude de mars 2024 menée par des chercheurs de l’Université du Maryland fournit un exemple simple d’attaque par backdoor IA. L’étude expose les résultats potentiels réels d’une telle attaque, « où les adversaires empoisonnent les données d’entraînement, permettant l’injection de comportements malveillants dans les modèles. Ces attaques sont particulièrement redoutables dans le contexte de la communication. »
Dans les véhicules autonomes, par exemple, l’intelligence du véhicule reconnaît un panneau Stop et réagit selon les instructions associées à ces données d’image. Si le réseau neuronal a été compromis par un backdoor IA, celui-ci peut être « déclenché » de façon à mal interpréter les données d’image et répondre avec les instructions malveillantes d’un acteur de la menace.
Lors d’une attaque par backdoor IA, le déclencheur peut être un petit signal visuel dans les données d’image, une séquence de mots dans des données textuelles ou un motif sonore spécifique dans les données audio. Dans l’image ci-dessous, le panneau Stop a été masqué par des autocollants qui vont activer un déclencheur de backdoor IA.
L’impact de l’injection de backdoors dans un modèle IA dépend des capacités du modèle et de la criticité de son rôle. S’ils sont manipulés, les modèles de machine learning traditionnels utilisés dans des domaines comme les soins de santé et la sécurité peuvent conduire à des résultats désastreux. La modification d’un modèle utilisé pour détecter les attaques par phishing peut avoir de graves conséquences pour la sécurité d’une organisation.
Attaques de chaîne d’approvisionnement et LLM
Les LLM sont des composants de chaînes d’approvisionnement plus larges et ont leurs propres chaînes d’approvisionnement qui les maintiennent à jour et cohérents. Un LLM compromis peut affecter toutes les applications qui s’y intègrent. Si un LLM populaire contient des backdoors, n’importe quel logiciel qui l’utilise est menacé. Il en va de même pour les modèles LLM « empoisonnés », qui sont des LLM compromis par des données malveillantes incluses dans l’ensemble de données d’entraînement.
Les modèles empoisonnés et les modèles contenant des backdoors IA diffèrent en ce sens que « l’empoisonnement » a pour origine les données frauduleuses contenues dans l’ensemble de données d’entraînement. L’empoisonnement peut résulter d’attaques intentionnelles et d’une corruption involontaire des données, ce qui affecte généralement les performances et le comportement du LLM. Le backdoor IA ne répond qu’à un déclencheur spécifique introduit intentionnellement pendant la phase d’entraînement.
Voici un exemple fourni par Mithril Security :
La sécurisation de cette chaîne d’approvisionnement est complexe, d’autant plus que de nombreux LLM sont proposés sous forme de « boîtes noires », où les détails de leur fonctionnement ne sont pas divulgués aux personnes chargées de les implémenter. Cette opacité rend difficile l’identification et l’atténuation des risques tels que les injections de prompts et les portes dérobées. Il s’agit d’un risque grave pour des secteurs critiques comme les soins de santé, la finance et les services publics, qui sont tous constitués de « systèmes de systèmes ».
Atténuer les risques liés à la sécurité de l’IA
La sécurité de l’IA est encore une discipline émergente, mais elle évolue rapidement en même temps que la technologie de l’IA. En tant qu’utilisateurs et responsables de la mise en œuvre de l’IA, nous devons envisager des stratégies de protection contre les attaques. Cela implique une combinaison de mesures de protection techniques, telles que l’utilisation de modèles dotés de protections intégrées, et de mesures non techniques comme la sensibilisation des utilisateurs aux risques potentiels.
L’IA et les LLM apportent des capacités révolutionnaires, mais posent également de nouveaux défis en matière de sécurité. Qu’il s’agisse de backdoors (portes dérobées) ou d’attaques de la chaîne d’approvisionnement, il est essentiel de comprendre ces risques pour exploiter la puissance de l’IA de manière responsable. À mesure que la sécurité de l’IA évolue, notre capacité à nous protéger contre ces menaces émergentes évolue également.
Le chercheur en sécurité Jonathan Tanner a contribué à cette série. Retrouvez Jonathan sur LinkedIn ici.

Rapport 2025 sur les ransomwares
Principales conclusions concernant l’expérience et l’impact des ransomwares sur les organisations du monde entier
S’abonner au blog de Barracuda.
Inscrivez-vous pour recevoir des informations sur les menaces, des commentaires sur le secteur et bien plus encore.

Sécurité des vulnérabilités gérée : correction plus rapide, risques réduits, conformité simplifiée
Découvrez à quel point il peut être facile de trouver les vulnérabilités que les cybercriminels cherchent à exploiter