Il piège les LLMs avec des bombes à retardement — Wassim Bouaziz

July 14, 202528m 30s

Audio is streamed directly from the publisher (sphinx.acast.com) as published in their RSS feed. Play Podcasts does not host this file. Rights-holders can request removal through the copyright & takedown page.

Original episode page

Show Notes

On explore comment des modèles de langage peuvent être sabotés de l’intérieur via leurs données d’entraînement, jusqu’à déclencher des comportements malveillants à une date ou dans un contexte précis. Avec Wassim Bouaziz, doctorant entre Polytechnique et Meta, nous expliquons les principes des portes dérobées et des déclencheurs cachés, et ce que cela implique pour la sécurité et l’alignement des assistants IA. Vous découvrirez des pistes de détection et de mitigation, et pourquoi la conception des jeux de données peut se retourner contre vos propres systèmes.

En plateau

Michaël de Marliave — animateur
Matthieu Lambda — chroniqueur
Wassim Bouaziz — invité

➤ Pour découvrir Mammouth IA : https://mammouth.ai/

➤ Pour le Merch Micode et Underscore_ : https://traphic.fr/collections/micode

⚠️ Précommandes avant le 15 Janvier !

Hébergé par Acast. Visitez acast.com/privacy pour plus d'informations.

← All episodes of Underscore_