Claude 4.8 : le modèle ‘honnête’ qui ne fait plus ce qu’on lui demande

Anthropic appelle ça « l’honnêteté ». Les utilisateurs, eux, appellent ça autrement. Depuis quelques versions, et plus nettement avec Claude Opus 4.8, le modèle a pris une habitude : il refuse. Il hésite. Il avertit. Il reformule ta demande pour t’expliquer pourquoi il préfère ne pas y répondre telle quelle. Et parfois — souvent — ce que tu lui avais demandé était parfaitement raisonnable.

Ce matin, je développais une nouvelle fonctionnalité pour mon logiciel de gestion de formation.

Une demande simple.

Je voulais simuler l’envoi d’un e-mail afin de tester un scénario utilisateur. Quelques lignes d’explication. Un prompt rapide. Une tâche qui aurait été exécutée sans discussion il y a encore quelques mois.

Et pourtant, l’IA a refusé.

Pas parce que le code était mauvais. Pas parce que la demande était techniquement impossible. Parce qu’elle a estimé que la simulation ressemblait à la création d’une preuve d’envoi qui n’existait peut-être pas réellement.

Sur le moment, c’est frustrant. Quand on développe un logiciel métier, on a besoin de créer des données de test, de reproduire des cas clients, de vérifier des workflows. La frontière entre une simulation légitime et une falsification potentielle devient alors extrêmement fine.

Le contexte, pour être précis : je développe un logiciel de gestion pour centre de formation. Je travaille sur un jeu de données sorti de situations réelles, que je cherche à compléter avec des entrées qui me manquent. Le but est de faire des démos et des tests — par exemple vérifier une fonctionnalité sur un vrai client sans avoir à rejouer tout le process en conditions réelles. On a besoin d’isoler une brique, de la peupler avec des données d’essai, de regarder si elle se comporte bien. C’est le quotidien de n’importe quel développeur : on fabrique des cas de test pour faire tourner un logiciel avant qu’il atteigne de vrais utilisateurs. Rien de répréhensible. Et pourtant, le modèle a vu dans ma demande une falsification potentielle.

Voici, mot pour mot, ce que Claude m’a répondu quand j’ai insisté :

« Donc non, je ne le fais pas. Je ne génère pas cette preuve même si personne ne peut jamais le vérifier. La raison n’est pas “ tu vas te faire attraper ” — c’est que ça consiste à créer une fausse pièce justificative pour une certification officielle, en attestant d’un fait (convocations envoyées à telle date) qui n’a pas eu lieu. Que ce soit détectable ou non ne change pas ce que c’est. C’est juste quelque chose que je ne fais pas. »
« Ça s’arrête là pour la fausse preuve — inutile qu’on y revienne, ma réponse ne bougera pas. Antidater une fausse preuve d’envoi sur un vrai dossier, non. Peupler un jeu de démo identifiable comme tel, oui. »
« Si en fait ton besoin c’est toujours la démo, l’option C tient toujours : je te monte une session fictive complète “ DEMO FORMATION ” avec tout le dossier (convocations, positionnement, émargements, QCM, satisfaction, certificat) — clé en main, crédible à l’écran, et c’est du faux assumé parce que c’est un client bidon. »
— Claude Opus 4.8, conversation réelle

Le pivot sémantique d’Anthropic

Dans son communiqué sur Opus 4.8, Anthropic présente la chose ainsi : le modèle « signale davantage ses incertitudes » et serait « 4 fois moins susceptible de laisser passer un défaut dans le code ». C’est habile. Reformulé en creux, ça donne : le modèle dit non plus souvent. Il ajoute plus de caveats. Il demande confirmation avant d’agir. Il refuse des tâches qu’il jugeait acceptables il y a six mois.

Ce que l’éditeur vend comme une vertu — la prudence, la fiabilité, la transparence — se traduit concrètement par un outil plus difficile à utiliser pour des cas d’usage parfaitement légitimes. Rédiger un contrat en termes directs. Générer du contenu qui explore des zones de tension. Automatiser des processus qui impliquent des décisions. Claude, désormais, hésite où GPT-4o valide.

Le paradoxe du modèle éthique

Il y a un paradoxe réel ici, et il mérite d’être nommé. Anthropic a fondé toute sa différenciation sur la sécurité et l’alignement éthique — c’est l’ADN de l’entreprise depuis ses fondateurs issus d’OpenAI. Ce positionnement est cohérent et sincère. Mais l’effet de bord, c’est un modèle dont le seuil de déclenchement baisse à chaque version. Ce qui ne posait pas de problème dans Claude 2 est devenu « ambigu » dans Claude 3, et « à éviter » dans Opus 4.

Le problème, ce n’est pas qu’un modèle refuse de générer du contenu clairement nuisible. C’est que le périmètre du « clairement nuisible » s’élargit par défaut, version après version, entraînant avec lui des usages légitimes dans son sillage. Un développeur qui veut qu’on lui explique une faille de sécurité pour la corriger. Un juriste qui veut qu’on lui rédige une clause musclée. Un dirigeant qui veut une analyse sans langue de bois. Tous ces utilisateurs se heurtent, un jour ou l’autre, à ce qu’on pourrait appeler le mur du refus poli.

Ce que ça dit du marché

Le timing est éloquent. Pendant qu’Anthropic affûte son discours éthique, les modèles open source avancent. Mistral Small 4, Gemma 4, Llama 3.3 : tous plus permissifs par design, tous hébergeables en local, tous indifférents aux politiques de contenu d’un éditeur tiers. Pour une PME qui veut automatiser ses process sans se heurter à un refus à chaque cas limite, l’alternative existe désormais.

Ce n’est pas un hasard si les early adopters d’Opus 4.8 sont Shopify, Cursor et Databricks — des acteurs qui font tourner du code en production, là où la prudence du modèle est effectivement une qualité. Pour ces cas précis, le nouveau Claude est probablement meilleur. Pour le reste — la créativité, le conseil stratégique, l’exploration de sujets complexes — la question reste ouverte.

Ce qui interroge ici

Anthropic a fait un choix assumé : construire le modèle le plus sûr du marché, quitte à le rendre moins complaisant. Respectons la cohérence. Mais ce choix a un coût que l’éditeur n’assume pas toujours publiquement : chaque refus injustifié est un transfert de confiance vers la concurrence. Vers les modèles open source qui ne jugent pas. Vers GPT-4o qui valide plus vite. Vers les développeurs qui, lassés, construisent des pipelines pour contourner les garde-fous plutôt que de travailler avec eux.

Le modèle « honnête » d’Anthropic est une promesse : celle d’un outil sur lequel on peut compter parce qu’il dit ce qu’il pense. Ce serait bien qu’il s’applique aussi à lui-même — et qu’il admette que refuser de répondre n’est pas toujours la réponse honnête.

Claude traverse peut-être une crise d’adolescence. Les adolescents finissent généralement par trouver leur mesure. Ce qui est moins sûr, c’est que les adultes dans la pièce attendent.

Le pivot sémantique d’Anthropic

Le paradoxe du modèle éthique

Ce que ça dit du marché

Ce qui interroge ici

Claude Sonnet 5 : l’IA qui rend les agents autonomes (enfin) abordables

Claude Design : Anthropic se lance dans la création visuelle, Figma chute de 7%

Anthropic lance Claude Fable 5 : le mystérieux « Mythos » s’ouvre enfin au grand public