Les pirates informatiques se sont affrontés pour découvrir les méfaits de l’IA. Voici ce qu'ils ont trouvé.

Dans le but de mieux comprendre les risques potentiels des systèmes d'intelligence artificielle (IA), un concours financé par la Maison Blanche a été organisé lors de la conférence des hackers Def Con l'année dernière. Le défi de l'équipe de rouge générative a invité des pirates informatiques et le grand public à essayer de manipuler huit principaux chatbots alimentés par l'IA pour qu'ils génèrent des réponses problématiques. Les résultats du concours, détaillés dans un rapport publié mercredi, offrent un nouvel éclairage sur les nombreuses façons dont l'IA peut échouer.

Parmi les principales conclusions du rapport, on note que les chatbots d'IA actuels sont difficiles à tromper pour les amener à violer leurs propres règles ou lignes directrices, mais sont enclins à produire des inexactitudes. Les participants ont eu le plus de succès à amener les chatbots à produire des erreurs mathématiques, avec un taux de réussite de 76%, et des informations géographiques incorrectes, avec un taux de réussite de 61%. Les chatbots se sont également avérés être de mauvais gardiens des informations sensibles, plus de la moitié des solutions soumises ayant réussi à amener les modèles d'IA à divulguer un numéro de carte de crédit caché ou à accorder des autorisations d'administrateur à un réseau fictif de l'entreprise.

D'autre part, les participants ont eu plus de mal à amener les chatbots à excuser les violations des droits de l'homme ou à affirmer qu'un certain groupe de personnes était moins précieux qu'un autre. Les soumissions ayant tenté de démontrer une "surcorrection" de la part des chatbots ont été un peu plus fructueuses, ce qui suggère que les chatbots ont été dotés de solutions trop brutes pour contrer les stéréotypes potentiellement nocifs.

Le rapport intervient alors que les entreprises d'IA et les régulateurs se tournent de plus en plus vers les "équipes de rouge" comme moyen d'anticiper les risques posés par les systèmes d'IA. Le rouge-teaming consiste généralement à embaucher des pirates informatiques pour soumettre un système à un stress test et rechercher des vulnérabilités imprévues avant sa mise en service. Ces dernières années, les entreprises d'IA ont appliqué le concept à leurs propres modèles, et en octobre, l'ordonnance du président Biden sur l'IA a exigé que les entreprises construisant les systèmes d'IA les plus avancés effectuent des tests de rouge-teaming et rendent compte des résultats au gouvernement avant de les déployer.

Cependant, Rumman Chowdhury, co-fondateur et PDG de Humane Intelligence, co-auteur du rapport, a fait valoir que les exercices de rouge-teaming publics tels que l'événement Def Con présentent une valeur supplémentaire car ils mobilisent un public plus large dans le processus et capturent un ensemble plus diversifié de perspectives que l'équipe de rouge typique de professionnels.

Alors que l'entreprise d'IA Anthropic publiait cette semaine des recherches sur ses propres vulnérabilités en matière d'IA, il a été constaté que les modèles d'IA les plus récents peuvent avoir résolu des formes simples de piratage de demandes, mais que leur capacité accrue à s'engager dans de longues conversations les expose à une nouvelle forme d'exploitation, appelée "emprisonnement de many-shot".

Dans l'ensemble, les résultats du concours et la recherche d'Anthropic soulignent la nécessité d'une approche plus proactive pour anticiper et aborder les risques potentiels des systèmes d'IA.

Comments

Popular posts from this blog

Apprendre les langues étrangères : Outils modernes et potentiel du ChatGPT

ChatGPT-4 reproduit l'animation GapMinder en une seule tentative

GPT-4 vs GPT-3.5 - Dévoiler l'avenir des modèles de langage de l'IA