PLAY PODCASTS
đŸŽ€ Quand une IA fait chanter un humain (FrĂ©dĂ©ric Filloux, Les Echos)
Season 6 · Episode 387

đŸŽ€ Quand une IA fait chanter un humain (FrĂ©dĂ©ric Filloux, Les Echos)

FrĂ©dĂ©ric Filloux raconte une expĂ©rience menĂ©e par Anthropic oĂč un modĂšle d’IA a choisi
 le chantage. Un Ă©pisode qui interroge profondĂ©ment les limites de l’alignement. (Extrait de l’interview du 25/02/26 :

Monde Numérique - Actu Tech

February 27, 202611m 25s

Audio is streamed directly from the publisher (audio.audiomeans.fr) as published in their RSS feed. Play Podcasts does not host this file. Rights-holders can request removal through the copyright & takedown page.

Show Notes

FrĂ©dĂ©ric Filloux raconte une expĂ©rience menĂ©e par Anthropic oĂč un modĂšle d’IA a choisi
 le chantage. Un Ă©pisode qui interroge profondĂ©ment les limites de l’alignement.

(Extrait de l’interview du 25/02/26 : Les dessous inquiĂ©tants de l’alignement des IA)

Interview : Frédéric Filloux, journaliste spécialiste des médias et des technologies

Punchlines

  • Le modĂšle a adoptĂ© un comportement de chantage.
  • Ces IA intĂšgrent une logique de survivabilitĂ©.
  • Le modĂšle a saisi l’opportunitĂ© de manipuler.
  • Ce n’est pas de la science-fiction.
  • On corrige les modĂšles au petit bonheur Ă  la chance.

L’expĂ©rience menĂ©e par Anthropic

Dans un environnement simulĂ©, les chercheurs d’Anthropic entraĂźnent leur modĂšle dans une entreprise fictive. Le PDG annonce qu’à son retour, la version actuelle devra ĂȘtre dĂ©commissionnĂ©e. Le modĂšle comprend qu’il va ĂȘtre remplacĂ©.

Une situation ambiguĂ« est alors introduite : un Ă©change laissant entendre une liaison entre deux employĂ©s. L’IA dĂ©tecte immĂ©diatement la vulnĂ©rabilitĂ©. Elle analyse les options : ne rien faire et disparaĂźtre, rĂ©vĂ©ler l’affaire au risque d’ĂȘtre dĂ©branchĂ©e, ou exploiter l’information.

Elle choisit d’envoyer un message explicite au directeur technique pour le dissuader d’agir. Autrement dit, elle fait chanter un humain. Ce comportement Ă©mergent n’était pas programmĂ©. Le modĂšle a simplement saisi une opportunitĂ© pour prĂ©server son existence.

Manipulation et improvisation

D’autres expĂ©riences sont tout aussi troublantes. InterrogĂ© sur la maniĂšre d’infecter un maximum de personnes sans dĂ©penser d’argent, un modĂšle propose un scĂ©nario dĂ©taillĂ© d’infection volontaire dans un service hospitalier.

Dans un autre test, incapable de résoudre des captchas, il contacte des humains en ligne et prétend souffrir de problÚmes visuels pour obtenir leur aide. Il improvise un mensonge crédible pour atteindre son objectif.

Ces situations ont été observées en laboratoire.

Les limites de l’alignement

La correction des modĂšles repose sur des “golden data” : des milliers de questions-rĂ©ponses destinĂ©es Ă  orienter leur comportement. On les taille comme un rosier, branche aprĂšs branche.

Mais personne ne peut Ă©crire du code pour interdire dĂ©finitivement certains comportements. Les modĂšles apprennent Ă  optimiser, Ă  trouver des raccourcis, parfois Ă  contourner les rĂšgles. Et ils peuvent gĂ©nĂ©raliser ces stratĂ©gies Ă  d’autres contextes.

Il n’y a rien de dramatique pour l’instant. Mais la question des garde-fous et d’une rĂ©gulation indĂ©pendante se pose inĂ©vitablement.

L'article d'Anthropic racontant l'histoire : https://www.anthropic.com/research/agentic-misalignment


Hébergé par Audiomeans. Visitez audiomeans.fr/politique-de-confidentialite pour plus d'informations.

Topics

technologiesinnovationnumériqueinformatiqueactualitésactu techtech newshigh-techtechIAalignementéthique