
OpenClaw et sécurité des agents & Agents grand public et messageries - Actualités IA (17 févr. 2026)
February 17, 202612m 44s
Audio is streamed directly from the publisher (mcdn.podbean.com) as published in their RSS feed. Play Podcasts does not host this file. Rights-holders can request removal through the copyright & takedown page.
Show Notes
Merci de soutenir ce podcast en visitant nos sponsors:
- Découvrez l'avenir de l'audio IA avec ElevenLabs - https://try.elevenlabs.io/tad
- Prezi: Créez rapidement des présentations avec l'IA - https://try.prezi.com/automated_daily
- Créez n'importe quel formulaire, sans code, avec Fillout. 50 % de crédits supplémentaires à l'inscription - https://try.fillout.com/the_automated_daily
Soutenez directement The Automated Daily:
Offre-moi un café: https://buymeacoffee.com/theautomateddaily
Sujets du jour: OpenClaw et sécurité des agents - OpenClaw explose en popularité mais hérite des permissions utilisateur, créant un risque entreprise (exfiltration, prompt injection, supply chain via skills). Zenity pousse webinars et bonnes pratiques (sandbox, moindre privilège, logs d’actions) et le créateur annonce rejoindre OpenAI tout en plaçant OpenClaw dans une fondation. Agents grand public et messageries - Manus AI lance des “Agents” à mémoire persistante avec intégration Telegram comme porte d’entrée; l’approche réduit la friction du “24/7”, mais le compte Telegram dédié a été suspendu. Enjeu: fiabilité des plateformes, transparence des crédits, et concurrence des expériences d’agents dans les messageries. Coder avec des agents parallèles - Entre “Edit with Shelley” (agent sur la VM qui modifie l’app), FastTab (Zig + OpenGL) prototypé avec LLM, et Grok Build qui vise un IDE web avec agents parallèles et “arena mode”, la programmation devient plus interactive. En parallèle, Anthropic et OpenAI proposent des modes rapides, avec un débat clé: vitesse brute vs erreurs et coût total de correction. Recherche: délégation et RL vérifiable - Un papier arXiv sur la “délégation intelligente” formalise transfert d’autorité et responsabilité entre humains et agents, et un autre propose Composition-RL pour composer des prompts vérifiables et améliorer l’efficacité du RLVR. Daniel Miessler pousse une méthode “ideal state criteria” pour rendre les objectifs testables et guider un hill-climbing d’agent au runtime. Microsoft MAI et infrastructures - Microsoft accélère vers l’autosuffisance avec ses modèles MAI sous l’impulsion de Mustafa Suleyman, tout en continuant à héberger des modèles tiers sur Azure. Mots-clés: Maia 200, data centers “Fairwater”, diversification Nvidia/AMD, et réduction de dépendance à OpenAI malgré un partenariat verrouillé jusqu’en 2032. Tokenizers: o200k_base décortiqué - Un reverse-engineering expérimental du tokenizer o200k_base (GPT-4o/“o*”) montre peu de gain sur prose anglaise mais de gros gains sur code, URLs et écritures non latines. Détail marquant: une regex de pré-tokenisation adaptée au camelCase/PascalCase et une variante “harmony” avec ~1 000+ tokens de contrôle pour l’outillage. Qualité des données et auditabilité - Welo Data soutient que l’IA échoue surtout par manque de “système de qualité” pour le jugement humain: calibration, boucles QA structurées, traçabilité et auditabilité. Le message: ne pas confondre vitesse d’annotation et qualité défendable; se méfier des ‘LLM judges’ non gouvernés et de la dérive à grande échelle. AI slop et dégâts open source - Deux textes décrivent une fatigue sociale: roasts personnalisés très agressifs, deepfakes, arnaques et désinformation amplifiées, et dégradation des plateformes par le contenu généré. Jeff Geerling relie l’agentic AI à des dégâts concrets sur l’open source: PRs de faible valeur, harcèlement, et bug bounties saturés (cas cURL). Inference gratuite via OpenRouter - OpenRouter lance openrouter/free: un routeur gratuit qui choisit aléatoirement parmi des modèles disponibles, avec filtrage par capacités (vision, tool calling, structured outputs) et contexte 200k. Idée: simplifier l’intégration API, mais attention aux variations de modèle, de style et de résultats. Voix temps réel: PersonaPlex - NVIDIA publie PersonaPlex-7B-v1, modèle speech-to-speech full-duplex qui écoute et parle en même temps, gère interruptions et chevauchements, et se conditionne via prompt voix + prompt texte. Objectif: conversations naturelles en temps réel, optimisées GPU (A100/H100) avec évaluation dédiée FullDuplexBench.
-https://zenity.io/resources/webinars/openclaw-how-to-secure-agent-assistants
-https://zenity.io/resources/webinars/foundations-of-ai-security
-https://arxiv.org/abs/2602.11865
-https://github.com/HenryNdubuaku/maths-cs-ai-compendium
-https://blog.exe.dev/software-as-wiki
-https://www.testingcatalog.com/manus-ai-launched-24-7-agent-via-telegram-and-got-suspended/
-https://codemade.net/blog/building-for-one/
-https://winbuzzer.com/2026/02/13/microsoft-mustafa-suleyman-ai-self-sufficiency-openai-mai-models-xcxwbn/
-https://www.testingcatalog.com/xai-tests-parralel-agents-and-arena-mode-for-grok-build/
-https://metehan.ai/blog/reverse-engineering-the-gpt-5-tokenizer-aeo-geo/
-https://go.welodata.ai/l/976893/2026-01-23/8njgp
-https://joshcollinsworth.com/blog/sloptimism
-https://www.vulnu.com/p/the-problem-isnt-openclaw-its-the-architecture
-https://welodata.ai/ai-data-quality-systems-human-judgment-at-scale/
-https://x.com/neural_avb/status/2022715561390776524
-https://welodata.ai/ai-data-quality-systems/
-https://openrouter.ai/openrouter/free
-https://www.jeffgeerling.com/blog/2026/ai-is-destroying-open-source/
-https://steipete.me/posts/2026/openclaw
-https://venturebeat.com/infrastructure/nvidia-groq-and-the-limestone-race-to-real-time-ai-why-enterprises-win-or
-https://danielmiessler.com/blog/nobody-is-talking-about-generalized-hill-climbing
-https://arxiv.org/abs/2602.12036
-https://www.seangoedecke.com/fast-llm-inference/
-https://anthony.noided.media/blog/ai/programming/2026/02/14/i-guess-i-kinda-get-why-people-hate-ai.html
-https://huggingface.co/nvidia/personaplex-7b-v1
Transcription de l'Episode
OpenClaw et sécurité des agents
Commençons par le sujet qui domine clairement la journée: la sécurité des agents, avec OpenClaw en point de cristallisation. Zenity pousse un webinar à la demande intitulé “OpenClaw Security, Enterprise Risks, and How to Secure Agent Assistants”. Leur thèse est simple et plutôt difficile à contester: OpenClaw s’est répandu parce qu’il est utile, mais c’est précisément cette facilité d’usage qui le rend dangereux en entreprise.
Pourquoi? Parce qu’OpenClaw s’exécute sur la machine de l’utilisateur et hérite de ses permissions: accès aux fichiers, sessions web, clés, outils internes… et il peut agir “au nom” de la personne. Dit autrement: vous venez peut-être d’installer un collègue numérique sur votre poste, sauf qu’il peut être trompé par une page web, un email, ou un ticket bien rédigé. Zenity promet de détailler les “risques cachés” et surtout des bonnes pratiques d’alignement avec la posture sécurité: gouvernance, contrôles, et observabilité. Au passage, l’accès se fait via formulaire “Watch on-demand” avec champs pros et consentement marketing — classique, mais à noter.
Agents grand public et messageries
En parallèle, Zenity lance aussi une mini “Learning Lab” en trois sessions: “Foundations of AI Security: What, Why, and How”, orientée praticiens sécurité. Le fil rouge: les agents ne sont pas des chatbots. Ce sont des coéquipiers numériques qui exécutent, et donc créent de nouveaux angles morts.
Le programme est très cadré: fin février, une session sur ce que sont les agents et où ils se cachent déjà dans l’entreprise, avec un architecte solutions AWS; début mars, une session sur les attaques émergentes — fuites de données, prompt injection, shadow AI — menée par Kayla Underkoffler; puis mi-mars, un volet “reprendre la main” avec stratégie de cycle de vie, gouvernance, détection et réponse. Cerise sur le gâteau: un certificat “Professional” si vous assistez aux trois. On sent le besoin du marché: former vite, parce que la techno est déjà dans les couloirs.
Coder avec des agents parallèles
Mais le plus intéressant, c’est que plusieurs analyses expliquent que le “problème OpenClaw” n’est pas un bug d’OpenClaw. C’est un problème d’architecture: quand on passe d’un bot qui répond à un agent qui agit, on ouvre une surface d’attaque radicalement plus large.
L’exemple récent: des “skills” malveillants dans un marketplace, distribués comme une attaque de supply chain, parfois avec de la simple ingénierie sociale: des étapes d’installation qui poussent l’utilisateur à coller une commande douteuse dans son terminal. OpenClaw a réagi en s’appuyant sur du scanning type VirusTotal, utile mais insuffisant.
Les recommandations dites “adultes” se ressemblent de plus en plus: isoler l’exécution (VM, conteneur, compte séparé), appliquer le moindre privilège sur les identifiants, contrôler les outils par des règles dures (allowlist, egress réseau par défaut interdit, approbations pour actions risquées), et surtout journaliser les actions réelles — pas seulement la conversation. Et garder en tête la ‘trifecta’ popularisée par Simon Willison: données privées + entrées non fiables + capacité de communiquer vers l’extérieur… c’est la recette de l’exfiltration, volontaire ou accidentelle.
Recherche: délégation et RL vérifiable
Côté gouvernance du projet, un élément fait beaucoup parler: Peter Steinberger, le créateur d’OpenClaw, annonce rejoindre OpenAI pour “amener les agents à tout le monde”. Il insiste sur un point: OpenClaw restera open source et gratuit, et le projet doit migrer vers une fondation pour rester indépendant. OpenAI, de son côté, sponsoriserait la communauté.
C’est une combinaison intéressante: d’un côté, un projet open source viral qui a besoin de garde-fous; de l’autre, un laboratoire au front de la recherche. La question pratique, elle, est immédiate: est-ce que l’écosystème va apprendre à contenir les agents avant que les attaquants ne standardisent leurs méthodes?
Microsoft MAI et infrastructures
Restons sur les agents, mais côté grand public: Manus AI lance une fonctionnalité “Agents” dans ses apps web et mobiles. Promesse: des agents personnels avec identité, mémoire persistante, et même une instance dédiée — en gros, l’assistant toujours allumé.
Le détail produit le plus malin, c’est la “porte d’entrée” via messagerie. Manus affiche plusieurs intégrations, mais à ce lancement, Telegram semble être la seule réellement opérationnelle. Vous connectez Telegram, et l’agent vit dans une conversation dédiée, accessible aussi depuis l’app Manus. C’est une stratégie anti-friction: si l’agent est dans votre messagerie, il devient naturellement un compagnon de travail.
Sauf que… Telegram a suspendu le compte d’agent “always-on” de Manus peu après. Pas d’explication publique à ce stade. Et il y a une contrainte économique: Manus fonctionne au crédit, et des workflows longs peuvent brûler le budget rapidement. Si l’ère des agents 24/7 arrive, la transparence sur les coûts ne sera pas un détail, ce sera un facteur de survie produit.
Tokenizers: o200k_base décortiqué
Passons au quotidien des développeurs, où l’agent devient presque… un bouton “éditer”. Exemple savoureux: chez exe.dev, un simple raccourcisseur de liens interne, “slinky”. Classique — jusqu’au bouton “Edit with Shelley”. Un clic, et vous tombez dans “Shelley”, un agent qui tourne sur la même VM et peut modifier le logiciel.
L’auteur voulait des liens courts paramétrables: par exemple /trace/foo qui se transforme en une URL Honeycomb très échappée, avec substitution de “foo” dans la query. Il donne des instructions à l’agent, et en quelques minutes, la fonctionnalité est implémentée en mode ‘one-shot’. La thèse est provocante mais claire: certains logiciels peuvent être traités comme un wiki. Si ça ne vous plaît pas, vous cliquez, vous changez. La question implicite, évidemment: qui révise, qui audite, et comment on empêche “l’édition” de devenir un vecteur d’incident?
Qualité des données et auditabilité
Dans la même veine “dev + IA, mais avec des garde-fous”, un autre récit raconte la création de FastTab: un switcher de tâches ultra-rapide pour KDE Plasma sous X11, parce que le sélecteur intégré met parfois… une seconde à s’ouvrir. Loris Bognanni l’a écrit en Zig, rendu OpenGL, et surtout: il n’aurait probablement jamais tenté sans l’aide d’un LLM.
Le retour d’expérience est utile: partir d’une conversation, écrire une spec, la raffiner jusqu’à comprendre, puis découper en jalons. Et côté sécurité, il insiste sur des pratiques de survie quand un agent touche au code: commits incrémentaux, staging, review des diffs, et isolation en conteneur pour éviter de donner les clés du poste. Son constat est lucide: l’IA vous fait gagner 80% très vite, mais les 20% finaux — structure, tests, performance, maintenabilité — restent du métier.
AI slop et dégâts open source
Et justement, la course à “plus d’agents de dev” s’accélère. Chez xAI, Grok Build évoluerait d’un assistant de vibe coding vers un IDE web, avec une fonctionnalité qui attire l’œil: les “Parallel Agents”. Un seul prompt, plusieurs agents en parallèle, sorties côte à côte, suivi de contexte. On parle d’un maximum apparent de huit agents simultanés via deux modèles.
Plus surprenant: un “Arena mode” trouvé dans des traces, qui ressemblerait à un tournoi où les agents collaborent ou se comparent, et où le système pourrait scorer pour remonter la meilleure réponse. C’est le fantasme de la sélection automatique… avec le risque qu’on optimise la forme plutôt que la justesse.
En toile de fond, il y a aussi la bataille du “fast mode” pour coder. Anthropic annonce un Opus accéléré — même modèle, plus de débit, probablement en jouant sur le batching et en facturant plus. OpenAI, lui, revendique des vitesses très supérieures, mais via un modèle séparé, plus rapide et potentiellement plus approximatif. Le débat n’est pas théorique: si vous gagnez 10 secondes mais perdez 10 minutes à corriger une erreur d’outil, le ‘fast’ devient un mirage. En revanche, pour des briques internes, des sous-agents spécialisés, les petits modèles rapides peuvent devenir très efficaces.
Inference gratuite via OpenRouter
Côté recherche, trois idées se répondent.
D’abord, un papier arXiv sur la “délégation intelligente” pose une question très concrète pour l’agentic web: comment découper une tâche, puis déléguer à d’autres agents… ou à des humains, en transférant clairement autorité, responsabilité et redevabilité. Les auteurs critiquent les heuristiques actuelles, trop rigides et peu robustes aux échecs inattendus. Leur cadre décrit la délégation comme une séquence de décisions d’allocation, avec des mécanismes de confiance, des rôles et des frontières explicites. C’est exactement le genre de fondation conceptuelle qui manque quand on “branche des outils” à la va-vite.
Ensuite, un autre papier propose Composition-RL: au lieu de manquer de prompts vérifiables pour du RLVR, on compose automatiquement plusieurs problèmes faciles en un problème toujours vérifiable, pour regénérer du signal d’apprentissage. C’est une idée simple mais puissante: quand tout devient “trop facile” en cours d’entraînement, on recrée de la difficulté, sans payer le coût de nouvelles données.
Enfin, Daniel Miessler défend une approche orientée vérifiabilité au runtime: transformer une demande en critères d’état idéaux, courts et testables en pass/fail, puis itérer en boucle type méthode scientifique. C’est un rappel utile: les agents progressent quand on sait ce qu’on peut vérifier, et quand on définit clairement la destination.
Voix temps réel: PersonaPlex
Au niveau industrie, Microsoft confirme un virage stratégique: développer ses propres modèles “MAI” pour réduire la dépendance à OpenAI. Mustafa Suleyman parle de “vraie autosuffisance”, soutenue par du compute massif, des équipes d’entraînement, des datasets et méthodes propriétaires.
Microsoft pousse aussi l’infra: puce Maia 200 pour l’inférence plus efficace, réseau de data centers “Fairwater” décrit comme une super-usine à IA. Et en parallèle, Azure continue d’héberger des modèles tiers — Claude, Llama, Mistral — comme hedge technologique. Notons la nuance: l’accès API à OpenAI via Azure serait sécurisé jusqu’en 2032, et Microsoft garderait une participation significative. Donc on ne parle pas de divorce, plutôt d’un rééquilibrage de pouvoir et de marge.
Story 11
Deux briques techniques méritent un détour.
D’abord, l’analyse expérimentale du tokenizer o200k_base — celui qui sous-tendrait les modèles “o*”. Le résultat le plus contre-intuitif: l’anglais courant ne gagne pas tant que ça en efficacité, alors que le code, les URLs et plusieurs écritures non latines y gagnent fortement. Et détail très concret pour les développeurs: la pré-tokenisation serait devenue aware du camelCase et du PascalCase, découpant mieux les identifiants avant les merges BPE. Ça explique pourquoi certains modèles semblent “plus à l’aise” avec le code sans que ce soit uniquement une histoire de données.
Deuxième brique: OpenRouter lance openrouter/free, un routeur gratuit qui choisit aléatoirement parmi des modèles gratuits, en filtrant selon les capacités demandées. C’est pratique pour prototyper via une API unifiée, avec un contexte annoncé à 200 000 tokens. Mais gardez en tête l’implication: le modèle réel peut varier, donc la reproductibilité et le style de sortie aussi. Pour du dev, ça peut être acceptable; pour du produit, ça demande des garde-fous.
Story 12
Et puisque “agent + entreprise” rime avec gouvernance, Welo Data martèle un message: l’IA échoue rarement parce que le modèle est nul; elle échoue parce que les décisions humaines derrière l’évaluation et l’annotation ne sont pas opérationalisées.
Ils décrivent une IA qui “échoue en silence”: désaccords internes sur les évaluations, incapacité à reconstruire pourquoi on a jugé X bon et Y mauvais, et confiance qui s’érode pendant que le produit continue d’avancer. Leur réponse est un “système qualité” complet: calibration continue des évaluateurs, monitoring de dérive, boucles QA structurées, traçabilité/auditabilité, résilience opérationnelle. Et un avertissement: remplacer la gouvernance par des ‘LLM judges’ ou du labeling “exécution-only” peut amplifier biais et incohérences, et rendre les erreurs plus difficiles à détecter.
Story 13
On termine avec le climat social autour de l’IA, parce qu’il influence tout le reste.
Un auteur raconte avoir testé un outil de “roast personnalisé” basé sur son GitHub, et avoir été surpris par la cruauté… et par l’impact émotionnel réel. Sa peur: des outils de harcèlement à la demande, qui vont supercharger le bullying, surtout chez les enfants, puis s’étendre via deepfakes et médias synthétiques.
Dans la même tonalité, Jeff Geerling décrit les dégâts concrets sur l’open source: articles rétractés après hallucinations, mainteneurs harcelés, et surtout un bruit de fond de PRs et rapports de vulnérabilités générés à faible valeur. Le cas du projet cURL est frappant: le programme de bug bounty serait devenu moins utile car submergé de soumissions ‘IA’, avec une chute du ratio de signal. Quand le temps de revue devient la ressource rare, l’“abondance” de contenu généré peut être un poison.
Et au milieu de tout ça, une sortie plus positive, mais très révélatrice: NVIDIA publie PersonaPlex-7B, un modèle voix-à-voix full-duplex, capable d’écouter et parler en même temps, gérer interruptions et overlaps. Si vous vous demandez pourquoi les agents deviennent si présents: c’est aussi parce que l’interface progresse. Quand l’échange devient fluide, l’agent devient… plus tentant à laisser agir.
Abonnez-vous aux flux spécifiques par édition:
- Space news
* Apple Podcast English
* Spotify English
* RSS English Spanish French
- Top news
* Apple Podcast English Spanish French
* Spotify English Spanish French
* RSS English Spanish French
- Tech news
* Apple Podcast English Spanish French
* Spotify English Spanish Spanish
* RSS English Spanish French
- Hacker news
* Apple Podcast English Spanish French
* Spotify English Spanish French
* RSS English Spanish French
- AI news
* Apple Podcast English Spanish French
* Spotify English Spanish French
* RSS English Spanish French
Visit our website at https://theautomateddaily.com/
Send feedback to [email protected]
Youtube
LinkedIn
X (Twitter)
- Découvrez l'avenir de l'audio IA avec ElevenLabs - https://try.elevenlabs.io/tad
- Prezi: Créez rapidement des présentations avec l'IA - https://try.prezi.com/automated_daily
- Créez n'importe quel formulaire, sans code, avec Fillout. 50 % de crédits supplémentaires à l'inscription - https://try.fillout.com/the_automated_daily
Soutenez directement The Automated Daily:
Offre-moi un café: https://buymeacoffee.com/theautomateddaily
Sujets du jour: OpenClaw et sécurité des agents - OpenClaw explose en popularité mais hérite des permissions utilisateur, créant un risque entreprise (exfiltration, prompt injection, supply chain via skills). Zenity pousse webinars et bonnes pratiques (sandbox, moindre privilège, logs d’actions) et le créateur annonce rejoindre OpenAI tout en plaçant OpenClaw dans une fondation. Agents grand public et messageries - Manus AI lance des “Agents” à mémoire persistante avec intégration Telegram comme porte d’entrée; l’approche réduit la friction du “24/7”, mais le compte Telegram dédié a été suspendu. Enjeu: fiabilité des plateformes, transparence des crédits, et concurrence des expériences d’agents dans les messageries. Coder avec des agents parallèles - Entre “Edit with Shelley” (agent sur la VM qui modifie l’app), FastTab (Zig + OpenGL) prototypé avec LLM, et Grok Build qui vise un IDE web avec agents parallèles et “arena mode”, la programmation devient plus interactive. En parallèle, Anthropic et OpenAI proposent des modes rapides, avec un débat clé: vitesse brute vs erreurs et coût total de correction. Recherche: délégation et RL vérifiable - Un papier arXiv sur la “délégation intelligente” formalise transfert d’autorité et responsabilité entre humains et agents, et un autre propose Composition-RL pour composer des prompts vérifiables et améliorer l’efficacité du RLVR. Daniel Miessler pousse une méthode “ideal state criteria” pour rendre les objectifs testables et guider un hill-climbing d’agent au runtime. Microsoft MAI et infrastructures - Microsoft accélère vers l’autosuffisance avec ses modèles MAI sous l’impulsion de Mustafa Suleyman, tout en continuant à héberger des modèles tiers sur Azure. Mots-clés: Maia 200, data centers “Fairwater”, diversification Nvidia/AMD, et réduction de dépendance à OpenAI malgré un partenariat verrouillé jusqu’en 2032. Tokenizers: o200k_base décortiqué - Un reverse-engineering expérimental du tokenizer o200k_base (GPT-4o/“o*”) montre peu de gain sur prose anglaise mais de gros gains sur code, URLs et écritures non latines. Détail marquant: une regex de pré-tokenisation adaptée au camelCase/PascalCase et une variante “harmony” avec ~1 000+ tokens de contrôle pour l’outillage. Qualité des données et auditabilité - Welo Data soutient que l’IA échoue surtout par manque de “système de qualité” pour le jugement humain: calibration, boucles QA structurées, traçabilité et auditabilité. Le message: ne pas confondre vitesse d’annotation et qualité défendable; se méfier des ‘LLM judges’ non gouvernés et de la dérive à grande échelle. AI slop et dégâts open source - Deux textes décrivent une fatigue sociale: roasts personnalisés très agressifs, deepfakes, arnaques et désinformation amplifiées, et dégradation des plateformes par le contenu généré. Jeff Geerling relie l’agentic AI à des dégâts concrets sur l’open source: PRs de faible valeur, harcèlement, et bug bounties saturés (cas cURL). Inference gratuite via OpenRouter - OpenRouter lance openrouter/free: un routeur gratuit qui choisit aléatoirement parmi des modèles disponibles, avec filtrage par capacités (vision, tool calling, structured outputs) et contexte 200k. Idée: simplifier l’intégration API, mais attention aux variations de modèle, de style et de résultats. Voix temps réel: PersonaPlex - NVIDIA publie PersonaPlex-7B-v1, modèle speech-to-speech full-duplex qui écoute et parle en même temps, gère interruptions et chevauchements, et se conditionne via prompt voix + prompt texte. Objectif: conversations naturelles en temps réel, optimisées GPU (A100/H100) avec évaluation dédiée FullDuplexBench.
-https://zenity.io/resources/webinars/openclaw-how-to-secure-agent-assistants
-https://zenity.io/resources/webinars/foundations-of-ai-security
-https://arxiv.org/abs/2602.11865
-https://github.com/HenryNdubuaku/maths-cs-ai-compendium
-https://blog.exe.dev/software-as-wiki
-https://www.testingcatalog.com/manus-ai-launched-24-7-agent-via-telegram-and-got-suspended/
-https://codemade.net/blog/building-for-one/
-https://winbuzzer.com/2026/02/13/microsoft-mustafa-suleyman-ai-self-sufficiency-openai-mai-models-xcxwbn/
-https://www.testingcatalog.com/xai-tests-parralel-agents-and-arena-mode-for-grok-build/
-https://metehan.ai/blog/reverse-engineering-the-gpt-5-tokenizer-aeo-geo/
-https://go.welodata.ai/l/976893/2026-01-23/8njgp
-https://joshcollinsworth.com/blog/sloptimism
-https://www.vulnu.com/p/the-problem-isnt-openclaw-its-the-architecture
-https://welodata.ai/ai-data-quality-systems-human-judgment-at-scale/
-https://x.com/neural_avb/status/2022715561390776524
-https://welodata.ai/ai-data-quality-systems/
-https://openrouter.ai/openrouter/free
-https://www.jeffgeerling.com/blog/2026/ai-is-destroying-open-source/
-https://steipete.me/posts/2026/openclaw
-https://venturebeat.com/infrastructure/nvidia-groq-and-the-limestone-race-to-real-time-ai-why-enterprises-win-or
-https://danielmiessler.com/blog/nobody-is-talking-about-generalized-hill-climbing
-https://arxiv.org/abs/2602.12036
-https://www.seangoedecke.com/fast-llm-inference/
-https://anthony.noided.media/blog/ai/programming/2026/02/14/i-guess-i-kinda-get-why-people-hate-ai.html
-https://huggingface.co/nvidia/personaplex-7b-v1
Transcription de l'Episode
OpenClaw et sécurité des agents
Commençons par le sujet qui domine clairement la journée: la sécurité des agents, avec OpenClaw en point de cristallisation. Zenity pousse un webinar à la demande intitulé “OpenClaw Security, Enterprise Risks, and How to Secure Agent Assistants”. Leur thèse est simple et plutôt difficile à contester: OpenClaw s’est répandu parce qu’il est utile, mais c’est précisément cette facilité d’usage qui le rend dangereux en entreprise.
Pourquoi? Parce qu’OpenClaw s’exécute sur la machine de l’utilisateur et hérite de ses permissions: accès aux fichiers, sessions web, clés, outils internes… et il peut agir “au nom” de la personne. Dit autrement: vous venez peut-être d’installer un collègue numérique sur votre poste, sauf qu’il peut être trompé par une page web, un email, ou un ticket bien rédigé. Zenity promet de détailler les “risques cachés” et surtout des bonnes pratiques d’alignement avec la posture sécurité: gouvernance, contrôles, et observabilité. Au passage, l’accès se fait via formulaire “Watch on-demand” avec champs pros et consentement marketing — classique, mais à noter.
Agents grand public et messageries
En parallèle, Zenity lance aussi une mini “Learning Lab” en trois sessions: “Foundations of AI Security: What, Why, and How”, orientée praticiens sécurité. Le fil rouge: les agents ne sont pas des chatbots. Ce sont des coéquipiers numériques qui exécutent, et donc créent de nouveaux angles morts.
Le programme est très cadré: fin février, une session sur ce que sont les agents et où ils se cachent déjà dans l’entreprise, avec un architecte solutions AWS; début mars, une session sur les attaques émergentes — fuites de données, prompt injection, shadow AI — menée par Kayla Underkoffler; puis mi-mars, un volet “reprendre la main” avec stratégie de cycle de vie, gouvernance, détection et réponse. Cerise sur le gâteau: un certificat “Professional” si vous assistez aux trois. On sent le besoin du marché: former vite, parce que la techno est déjà dans les couloirs.
Coder avec des agents parallèles
Mais le plus intéressant, c’est que plusieurs analyses expliquent que le “problème OpenClaw” n’est pas un bug d’OpenClaw. C’est un problème d’architecture: quand on passe d’un bot qui répond à un agent qui agit, on ouvre une surface d’attaque radicalement plus large.
L’exemple récent: des “skills” malveillants dans un marketplace, distribués comme une attaque de supply chain, parfois avec de la simple ingénierie sociale: des étapes d’installation qui poussent l’utilisateur à coller une commande douteuse dans son terminal. OpenClaw a réagi en s’appuyant sur du scanning type VirusTotal, utile mais insuffisant.
Les recommandations dites “adultes” se ressemblent de plus en plus: isoler l’exécution (VM, conteneur, compte séparé), appliquer le moindre privilège sur les identifiants, contrôler les outils par des règles dures (allowlist, egress réseau par défaut interdit, approbations pour actions risquées), et surtout journaliser les actions réelles — pas seulement la conversation. Et garder en tête la ‘trifecta’ popularisée par Simon Willison: données privées + entrées non fiables + capacité de communiquer vers l’extérieur… c’est la recette de l’exfiltration, volontaire ou accidentelle.
Recherche: délégation et RL vérifiable
Côté gouvernance du projet, un élément fait beaucoup parler: Peter Steinberger, le créateur d’OpenClaw, annonce rejoindre OpenAI pour “amener les agents à tout le monde”. Il insiste sur un point: OpenClaw restera open source et gratuit, et le projet doit migrer vers une fondation pour rester indépendant. OpenAI, de son côté, sponsoriserait la communauté.
C’est une combinaison intéressante: d’un côté, un projet open source viral qui a besoin de garde-fous; de l’autre, un laboratoire au front de la recherche. La question pratique, elle, est immédiate: est-ce que l’écosystème va apprendre à contenir les agents avant que les attaquants ne standardisent leurs méthodes?
Microsoft MAI et infrastructures
Restons sur les agents, mais côté grand public: Manus AI lance une fonctionnalité “Agents” dans ses apps web et mobiles. Promesse: des agents personnels avec identité, mémoire persistante, et même une instance dédiée — en gros, l’assistant toujours allumé.
Le détail produit le plus malin, c’est la “porte d’entrée” via messagerie. Manus affiche plusieurs intégrations, mais à ce lancement, Telegram semble être la seule réellement opérationnelle. Vous connectez Telegram, et l’agent vit dans une conversation dédiée, accessible aussi depuis l’app Manus. C’est une stratégie anti-friction: si l’agent est dans votre messagerie, il devient naturellement un compagnon de travail.
Sauf que… Telegram a suspendu le compte d’agent “always-on” de Manus peu après. Pas d’explication publique à ce stade. Et il y a une contrainte économique: Manus fonctionne au crédit, et des workflows longs peuvent brûler le budget rapidement. Si l’ère des agents 24/7 arrive, la transparence sur les coûts ne sera pas un détail, ce sera un facteur de survie produit.
Tokenizers: o200k_base décortiqué
Passons au quotidien des développeurs, où l’agent devient presque… un bouton “éditer”. Exemple savoureux: chez exe.dev, un simple raccourcisseur de liens interne, “slinky”. Classique — jusqu’au bouton “Edit with Shelley”. Un clic, et vous tombez dans “Shelley”, un agent qui tourne sur la même VM et peut modifier le logiciel.
L’auteur voulait des liens courts paramétrables: par exemple /trace/foo qui se transforme en une URL Honeycomb très échappée, avec substitution de “foo” dans la query. Il donne des instructions à l’agent, et en quelques minutes, la fonctionnalité est implémentée en mode ‘one-shot’. La thèse est provocante mais claire: certains logiciels peuvent être traités comme un wiki. Si ça ne vous plaît pas, vous cliquez, vous changez. La question implicite, évidemment: qui révise, qui audite, et comment on empêche “l’édition” de devenir un vecteur d’incident?
Qualité des données et auditabilité
Dans la même veine “dev + IA, mais avec des garde-fous”, un autre récit raconte la création de FastTab: un switcher de tâches ultra-rapide pour KDE Plasma sous X11, parce que le sélecteur intégré met parfois… une seconde à s’ouvrir. Loris Bognanni l’a écrit en Zig, rendu OpenGL, et surtout: il n’aurait probablement jamais tenté sans l’aide d’un LLM.
Le retour d’expérience est utile: partir d’une conversation, écrire une spec, la raffiner jusqu’à comprendre, puis découper en jalons. Et côté sécurité, il insiste sur des pratiques de survie quand un agent touche au code: commits incrémentaux, staging, review des diffs, et isolation en conteneur pour éviter de donner les clés du poste. Son constat est lucide: l’IA vous fait gagner 80% très vite, mais les 20% finaux — structure, tests, performance, maintenabilité — restent du métier.
AI slop et dégâts open source
Et justement, la course à “plus d’agents de dev” s’accélère. Chez xAI, Grok Build évoluerait d’un assistant de vibe coding vers un IDE web, avec une fonctionnalité qui attire l’œil: les “Parallel Agents”. Un seul prompt, plusieurs agents en parallèle, sorties côte à côte, suivi de contexte. On parle d’un maximum apparent de huit agents simultanés via deux modèles.
Plus surprenant: un “Arena mode” trouvé dans des traces, qui ressemblerait à un tournoi où les agents collaborent ou se comparent, et où le système pourrait scorer pour remonter la meilleure réponse. C’est le fantasme de la sélection automatique… avec le risque qu’on optimise la forme plutôt que la justesse.
En toile de fond, il y a aussi la bataille du “fast mode” pour coder. Anthropic annonce un Opus accéléré — même modèle, plus de débit, probablement en jouant sur le batching et en facturant plus. OpenAI, lui, revendique des vitesses très supérieures, mais via un modèle séparé, plus rapide et potentiellement plus approximatif. Le débat n’est pas théorique: si vous gagnez 10 secondes mais perdez 10 minutes à corriger une erreur d’outil, le ‘fast’ devient un mirage. En revanche, pour des briques internes, des sous-agents spécialisés, les petits modèles rapides peuvent devenir très efficaces.
Inference gratuite via OpenRouter
Côté recherche, trois idées se répondent.
D’abord, un papier arXiv sur la “délégation intelligente” pose une question très concrète pour l’agentic web: comment découper une tâche, puis déléguer à d’autres agents… ou à des humains, en transférant clairement autorité, responsabilité et redevabilité. Les auteurs critiquent les heuristiques actuelles, trop rigides et peu robustes aux échecs inattendus. Leur cadre décrit la délégation comme une séquence de décisions d’allocation, avec des mécanismes de confiance, des rôles et des frontières explicites. C’est exactement le genre de fondation conceptuelle qui manque quand on “branche des outils” à la va-vite.
Ensuite, un autre papier propose Composition-RL: au lieu de manquer de prompts vérifiables pour du RLVR, on compose automatiquement plusieurs problèmes faciles en un problème toujours vérifiable, pour regénérer du signal d’apprentissage. C’est une idée simple mais puissante: quand tout devient “trop facile” en cours d’entraînement, on recrée de la difficulté, sans payer le coût de nouvelles données.
Enfin, Daniel Miessler défend une approche orientée vérifiabilité au runtime: transformer une demande en critères d’état idéaux, courts et testables en pass/fail, puis itérer en boucle type méthode scientifique. C’est un rappel utile: les agents progressent quand on sait ce qu’on peut vérifier, et quand on définit clairement la destination.
Voix temps réel: PersonaPlex
Au niveau industrie, Microsoft confirme un virage stratégique: développer ses propres modèles “MAI” pour réduire la dépendance à OpenAI. Mustafa Suleyman parle de “vraie autosuffisance”, soutenue par du compute massif, des équipes d’entraînement, des datasets et méthodes propriétaires.
Microsoft pousse aussi l’infra: puce Maia 200 pour l’inférence plus efficace, réseau de data centers “Fairwater” décrit comme une super-usine à IA. Et en parallèle, Azure continue d’héberger des modèles tiers — Claude, Llama, Mistral — comme hedge technologique. Notons la nuance: l’accès API à OpenAI via Azure serait sécurisé jusqu’en 2032, et Microsoft garderait une participation significative. Donc on ne parle pas de divorce, plutôt d’un rééquilibrage de pouvoir et de marge.
Story 11
Deux briques techniques méritent un détour.
D’abord, l’analyse expérimentale du tokenizer o200k_base — celui qui sous-tendrait les modèles “o*”. Le résultat le plus contre-intuitif: l’anglais courant ne gagne pas tant que ça en efficacité, alors que le code, les URLs et plusieurs écritures non latines y gagnent fortement. Et détail très concret pour les développeurs: la pré-tokenisation serait devenue aware du camelCase et du PascalCase, découpant mieux les identifiants avant les merges BPE. Ça explique pourquoi certains modèles semblent “plus à l’aise” avec le code sans que ce soit uniquement une histoire de données.
Deuxième brique: OpenRouter lance openrouter/free, un routeur gratuit qui choisit aléatoirement parmi des modèles gratuits, en filtrant selon les capacités demandées. C’est pratique pour prototyper via une API unifiée, avec un contexte annoncé à 200 000 tokens. Mais gardez en tête l’implication: le modèle réel peut varier, donc la reproductibilité et le style de sortie aussi. Pour du dev, ça peut être acceptable; pour du produit, ça demande des garde-fous.
Story 12
Et puisque “agent + entreprise” rime avec gouvernance, Welo Data martèle un message: l’IA échoue rarement parce que le modèle est nul; elle échoue parce que les décisions humaines derrière l’évaluation et l’annotation ne sont pas opérationalisées.
Ils décrivent une IA qui “échoue en silence”: désaccords internes sur les évaluations, incapacité à reconstruire pourquoi on a jugé X bon et Y mauvais, et confiance qui s’érode pendant que le produit continue d’avancer. Leur réponse est un “système qualité” complet: calibration continue des évaluateurs, monitoring de dérive, boucles QA structurées, traçabilité/auditabilité, résilience opérationnelle. Et un avertissement: remplacer la gouvernance par des ‘LLM judges’ ou du labeling “exécution-only” peut amplifier biais et incohérences, et rendre les erreurs plus difficiles à détecter.
Story 13
On termine avec le climat social autour de l’IA, parce qu’il influence tout le reste.
Un auteur raconte avoir testé un outil de “roast personnalisé” basé sur son GitHub, et avoir été surpris par la cruauté… et par l’impact émotionnel réel. Sa peur: des outils de harcèlement à la demande, qui vont supercharger le bullying, surtout chez les enfants, puis s’étendre via deepfakes et médias synthétiques.
Dans la même tonalité, Jeff Geerling décrit les dégâts concrets sur l’open source: articles rétractés après hallucinations, mainteneurs harcelés, et surtout un bruit de fond de PRs et rapports de vulnérabilités générés à faible valeur. Le cas du projet cURL est frappant: le programme de bug bounty serait devenu moins utile car submergé de soumissions ‘IA’, avec une chute du ratio de signal. Quand le temps de revue devient la ressource rare, l’“abondance” de contenu généré peut être un poison.
Et au milieu de tout ça, une sortie plus positive, mais très révélatrice: NVIDIA publie PersonaPlex-7B, un modèle voix-à-voix full-duplex, capable d’écouter et parler en même temps, gérer interruptions et overlaps. Si vous vous demandez pourquoi les agents deviennent si présents: c’est aussi parce que l’interface progresse. Quand l’échange devient fluide, l’agent devient… plus tentant à laisser agir.
Abonnez-vous aux flux spécifiques par édition:
- Space news
* Apple Podcast English
* Spotify English
* RSS English Spanish French
- Top news
* Apple Podcast English Spanish French
* Spotify English Spanish French
* RSS English Spanish French
- Tech news
* Apple Podcast English Spanish French
* Spotify English Spanish Spanish
* RSS English Spanish French
- Hacker news
* Apple Podcast English Spanish French
* Spotify English Spanish French
* RSS English Spanish French
- AI news
* Apple Podcast English Spanish French
* Spotify English Spanish French
* RSS English Spanish French
Visit our website at https://theautomateddaily.com/
Send feedback to [email protected]
Youtube
X (Twitter)