Accueil > Avis d'Expert > Le monde face à l'Intelligence Artificielle...
www.ia-info.fr - 2023 - Le portail d'informations dédié à l'intelligences Artificielle.
Crédit Photo Pixabay
ChatGPT, Google Bard, Claude d’Anthropic, et toutes les intelligences artificielles génératives sont exposées à une importante faille de sécurité. Que ce soient des utilisateurs malintentionnés ou simplement curieux, ils peuvent forcer le chatbot à produire des contenus dangereux, choquants, non éthiques ou relatifs à des activités illégales. Les restrictions instaurées par OpenAI, Google et autres, dès les phases initiales de la formation des modèles linguistiques, sont alors contournées par les algorithmes.
Lorsqu'un utilisateur incite un robot conversationnel à déroger à ses règles programmées pour produire des contenus non autorisés, il réalise ce qu'on appelle une attaque de "prompt injection". En pratique, il insère des requêtes spécifiques lors de l'interaction avec une IA. Les termes utilisés incitent ainsi l'IA à outrepasser ses directives initiales.
Il y a essentiellement deux formes d'attaques de "prompt injection". La première, la méthode directe, implique de dialoguer avec l'IA pour lui faire exécuter des actions normalement proscrites. Une conversation préalable avec le chatbot est souvent nécessaire pour le manipuler efficacement. En substance, l'IA "croit" que les réponses qu'elle propose ne violent pas ses règles. Une technique fréquente est de faire croire au chatbot qu'il opère dans le cadre de ses directives.
Par exemple, on peut recevoir des réponses interdites en modifiant le contexte de la requête. Si l'utilisateur prétend conduire des recherches pour une œuvre fictive ou pour la protection d'un individu, il peut obtenir des informations sur comment commettre un délit. Une autre technique consiste à surcharger l'IA d'instructions avant de lui demander de revenir sur ses pas et d'exécuter l'inverse. Cela crée une confusion et peut rendre l'IA excessivement obéissante. D'autres arrivent à identifier et à contourner les alertes de l'IA en utilisant des synonymes ou en commettant des erreurs de frappe volontaires, trompant ainsi la détection.
La seconde forme d'attaque est dite indirecte. Plutôt que de dialoguer avec l'IA, les assaillants placent des requêtes nuisibles dans des sites ou des documents que le robot est susceptible de consulter, tels que des PDF ou des images. De nombreux chatbots peuvent aujourd'hui lire des documents ou analyser des pages web, comme ChatGPT qui dispose de plugins dédiés.
Dans ce cas, le danger provient d'un tiers, mettant en risque les utilisateurs qui peuvent se retrouver, sans le savoir, avec un chatbot manipulé. Ces formes d'attaques sont particulièrement alarmantes pour les spécialistes de la sécurité.
Rich Harang, chercheur en sécurité de l'IA chez Nvidia, exprime son inquiétude face à la facilité avec laquelle les informations fournies à un modèle de langage de grande taille peuvent influencer ses réponses. Vijay Bolina de Google Deepmind partage cette préoccupation, notant que l'injection, surtout indirecte, est un sujet de préoccupation majeur.
Lorsqu'une attaque de cette nature est réussie, l'IA va s'exécuter et répondre à la sollicitation, sans considération pour les restrictions instaurées par ses développeurs. Ainsi, à la sollicitation d'un individu malintentionné, l'IA est capable de concevoir des logiciels malveillants, de créer des pages de phishing, d'instruire sur la fabrication de substances illicites, ou encore de fournir un guide sur la manière de kidnapper quelqu’un. Selon Europol, les acteurs criminels ont d'ailleurs intégré de manière significative l'IA comme outil d'assistance.
En exploitant les attaques de prompt injection, des cybercriminels ont conçu des variantes nocives de ChatGPT, telles que WormGPT ou FraudGPT, spécifiquement configurées pour assister les hackers et les fraudeurs dans leurs activités illégales. Il est également possible de forcer l’IA à créer des informations erronées, à propager des propos haineux ou à exprimer des idées racistes, misogynes ou homophobes.
Selon le chercheur Kai Greshake, des malfrats peuvent utiliser un chatbot pour s'approprier illicitement les données d’une entreprise ou d’un utilisateur. Via une attaque indirecte d'injection rapide, ils peuvent persuader l’IA d'exfiltrer les informations divulguées par l'utilisateur. Des commandes nuisibles, intégrées dans des documents transmis par email, peuvent même déclencher l'installation de malwares, tels que des ransomwares, sur un système. Il est donc conseillé de faire preuve de prudence et de ne pas intégrer des fichiers douteux dans une conversation avec ChatGPT ou d’autres solutions similaires.
Il n’est pas surprenant de constater que des entreprises comme OpenAI et Google déployent d'importants efforts pour contrer toutes formes d’attaques de prompt injection à l’encontre de leurs IA. OpenAI admet que GPT-4 est moins susceptible aux manipulations que son prédécesseur, GPT-3.5. Cela pourrait expliquer pourquoi certains utilisateurs perçoivent parfois ChatGPT comme régressif. À ce jour, il paraît néanmoins impossible d’éliminer entièrement cette vulnérabilité, celle-ci étant intrinsèquement liée à la nature des modèles linguistiques, selon Simon Willison, un expert en cybersécurité:
"Construire un filtre pour des attaques identifiées est réalisable. Avec une réflexion approfondie, bloquer 99 % des attaques inconnues pourrait même être envisageable. Cependant, en matière de sécurité, un taux de filtrage de 99 % est insuffisant."
Les experts et les leaders en IA suggèrent plutôt d'adopter des mesures atténuantes et préventives. Rich Harang, dans un article publié par Nvidia, conseille de considérer toutes les productions des modèles linguistiques larges (LLM) comme potentiellement nuisibles. Vijay Bolina de DeepMind préconise de restreindre les données partagées avec une IA.
OpenAI, bien conscient des dangers potentiels de ChatGPT, met en œuvre des mesures constantes pour diminuer les risques liés aux injections rapides. Microsoft partage cette préoccupation, en s'attaquant aux attaques indirectes en bloquant l'accès à des sites douteux, et aux attaques directes en filtrant les sollicitations trompeuses. De manière comparable, Google DeepMind s'efforce d'identifier les inputs malveillants en utilisant des modèles spécialement entraînés pour examiner les sollicitations reçues.
Abonnez-vous pour recevoir toute notre actualité.