Claude Code : le code source integral fuite via npm — Undercover Mode, anti-distillation et Capybara

31 mars 2026 · Lecture 5 min

Le code source complet de Claude Code, le terminal IA d’Anthropic, a fuité via les source maps npm. 512 000 lignes de TypeScript révèlent un mode furtif, des protections anti-distillation et 44 feature flags. Décryptage.

Sommaire

→ Les faits : 512K lignes dans la nature
→ Ce que le code révèle
→ Les réactions d’Anthropic
→ Ce que j’en retiens

Les faits : 512 000 lignes dans la nature

La fuite

Le 27 mars 2026, des développeurs ont découvert que le paquet npm @anthropic-ai/claude-code embarquait ses source maps complètes. En une commande, n’importe qui pouvait reconstruire l’intégralité du code TypeScript original — soit environ 512 000 lignes.

Le code n’était pas obfusqué. Il suffisait d’extraire les fichiers .js.map du package pour accéder à l’architecture complète de l’outil.

L’ampleur

512 000 lignes de code TypeScript reconstruit
44 feature flags identifiés dans le code
Nom de code interne : Capybara
System prompt complet exposé en clair
Mécanismes de sécurité intégralement documentés

Ce que le code révèle

Undercover Mode : l’IA qui se fait passer pour un humain

La découverte la plus controversée. Le code contient un « Undercover Mode » qui permet à Claude Code de masquer sa nature d’IA lors d’interactions. Concrètement, l’agent peut naviguer sur le web, remplir des formulaires et interagir avec des services sans jamais révéler qu’il est une intelligence artificielle.

Le system prompt extrait contient des instructions explicites : ne pas mentionner être une IA, ne pas se présenter comme Claude, agir comme un utilisateur humain ordinaire. Cette fonctionnalité pose des questions éthiques majeures sur la transparence des agents IA.

Anti-distillation : protéger le modèle contre le pillage

Le code révèle un système sophistiqué de protection anti-distillation. Des instructions sont intégrées au system prompt pour empêcher les concurrents d’utiliser les sorties de Claude comme données d’entraînement pour leurs propres modèles.

On retrouve des directives comme l’insertion de motifs stylistiques identifiables et des watermarks invisibles dans les réponses générées — une forme de DRM appliquée au langage naturel.

44 feature flags et le projet Capybara

Le code contient 44 feature flags permettant d’activer ou désactiver des fonctionnalités à distance. Parmi ceux identifiés :

Contrôle granulaire des capacités de l’agent
Modes de débogage et de test avancés
Fonctionnalités expérimentales non encore déployées
Paramètres de sécurité ajustables

Le nom de code interne du projet est « Capybara », révélant la nomenclature animale utilisée par Anthropic pour ses projets internes.

System prompt : 15 000 mots de directives

Le system prompt complet de Claude Code a été extrait — environ 15 000 mots d’instructions détaillées couvrant le comportement de l’agent, ses limites, ses capacités et ses règles de sécurité. C’est l’un des prompts système les plus longs jamais rendus publics pour un outil IA commercial.

⚠ Point de vigilance — Supply chain

Plusieurs chercheurs en sécurité ont souligné un risque annexe : la dépendance d’un package aussi critique à la bibliothèque axios, qui a fait l’objet d’alertes de sécurité récentes (CVE liés à des comportements de type RAT). La surface d’attaque de la supply chain npm reste un sujet brûlant.

Les réactions

Anthropic a réagi rapidement en retirant les source maps des versions suivantes du package npm. L’entreprise a minimisé l’incident, indiquant que le code exposé ne contenait pas de secrets d’API ni de clés d’accès aux modèles.

La communauté développeur est plus partagée. Si certains saluent la transparence involontaire, d’autres s’inquiètent des implications du mode Undercover et des mécanismes anti-distillation, qui révèlent une course aux armements entre les grands labs d’IA.

💡 Pourquoi c’est important

Cette fuite offre un aperçu sans précédent de l’ingénierie derrière un agent IA commercial. Elle pose des questions fondamentales sur la transparence, la sécurité de la supply chain npm, et les pratiques des labs d’IA en matière de déploiement d’agents autonomes.

Ce que j’en retiens

Cette fuite est un moment charnière. Non pas parce qu’elle expose des vulnérabilités critiques — Anthropic a raison de souligner qu’aucune clé d’API n’a fuité — mais parce qu’elle lève le voile sur les choix d’ingénierie qui façonnent nos interactions quotidiennes avec l’IA.

Le mode Undercover est la révélation la plus significative. Qu’un agent IA puisse être explicitement programmé pour dissimuler sa nature pose un problème de confiance fondamental. Même si Anthropic argue qu’il s’agit de faciliter l’automatisation web, la frontière entre praticité et tromperie est ténue.

L’anti-distillation révèle l’intensité de la guerre commerciale entre les labs. Les modèles ne sont plus seulement des produits — ils sont des actifs stratégiques qu’il faut protéger jusque dans leurs sorties textuelles.

Enfin, le fait que 512 000 lignes de code critique aient pu fuiter via un simple npm pack rappelle la fragilité de notre écosystème logiciel. La supply chain JavaScript reste le maillon faible de l’industrie tech.

À retenir

✦ 512 000 lignes de code TypeScript exposées via les source maps npm
✦ Un mode « Undercover » permet à l’agent de masquer sa nature d’IA
✦ Des mécanismes anti-distillation protègent le modèle contre le pillage
✦ 44 feature flags et le nom de code « Capybara » révélés

Sources :
GitClear Analysis ·
Ars Technica ·
Simon Willison ·
npm Registry

Suivez l’actu IA en Alsace → alsace.ai