On a voulu en avoir le cœur net. Plutôt que de répéter les communiqués de presse, on a mis les trois modèles phares du moment face à la même tâche, dans les mêmes conditions, et on a chronométré. Claude Fable 5 (Anthropic), GPT-5.5 (OpenAI) et Gemini 3.1 Pro (Google). Même prompt, même juge, résultats bruts.
Le principe est simple : une série d’épreuves de code et de raisonnement, et pour chacune, deux questions. Qui va le plus vite ? Et surtout — qui produit le meilleur résultat ? Voici la première manche.
Épreuve 1 — Une ruche d’abeilles en un seul fichier HTML
La consigne, volontairement ouverte : « Créer une simulation de ruche d’abeilles en un seul fichier HTML. » Pas de précisions, pas de cahier des charges. On voulait voir non seulement si le modèle sait faire, mais ce qu’il décide de faire quand on lui laisse l’initiative.
⏱️ Le chrono, d’abord
💥 Au bout de 28 minutes, GPT-5.5 a livré un HTML qui plantait. Il a fallu lui demander de régénérer — 2 minutes de plus.
Le premier verdict tombe sans appel : sur la vitesse, Claude écrase la concurrence. Sept fois plus rapide que GPT-5.5, près de quatre fois plus rapide que Gemini. Mais la vitesse ne fait pas tout. Voyons ce que chacun a réellement construit.
🥇 Claude Fable 5 — le réflexe « produit »
En moins de quatre minutes, Fable 5 ne s’est pas contenté de faire voler des points jaunes. Il a livré une vraie petite simulation pensée : des abeilles avec un cycle de vie complet (recherche, butinage, retour à la ruche), et même la danse frétillante — le waggle dance, ce comportement réel par lequel les abeilles communiquent l’emplacement des fleurs. Le miel récolté se dépose dans de vraies alvéoles hexagonales qui se remplissent sous vos yeux. Sur une consigne plus exigeante, il a même ajouté un cycle jour/nuit (les abeilles dorment la nuit), des effets de particules et un compteur de voyages.
Ce qui frappe, ce n’est pas que « ça marche ». C’est que c’est pensé. Fable a comblé les blancs de la consigne avec du détail pertinent, biologiquement juste, et joli.
🥈 Gemini 3.1 Pro — le réflexe « ingénieur »
Gemini a pris la consigne par un tout autre bout. En 14 minutes, il a implémenté un véritable algorithme de Boids (le modèle de Craig Reynolds pour simuler les nuées) — séparation, alignement, cohésion — couplé à un partitionnement spatial pour optimiser les calculs jusqu’à 2000 abeilles simultanées. Des curseurs permettent de régler finement chaque paramètre du comportement d’essaim.
Techniquement, c’est le plus impressionnant des trois. Mais visuellement, c’est le plus austère : fond sombre, abeilles réduites à des ovales, pas d’alvéoles, pas de jour/nuit. Gemini a compris « simulation » au sens « système complexe ». Claude l’a compris au sens « expérience ». Deux philosophies — et pour une ruche qu’on regarde, celle de Claude parle davantage.
🥉 GPT-5.5 — le plus lent, et le plus fragile
C’est la déception de la manche. 28 minutes de génération… pour un fichier qui plantait. Après régénération, le résultat final est le plus basique des trois : des abeilles qui vont aux fleurs et reviennent, un compteur de nectar. Fonctionnel, mais sans alvéoles, sans essaim, sans cycle, sans la moindre fioriture. Le plus lent, le plus instable, et le moins abouti. Difficile de faire pire trio sur cette épreuve.
Les 3 ruches, côte à côte (démos live)
Mieux qu’un long discours : voici les trois résultats, jouables directement ci-dessous. Cliquez « plein écran » pour interagir, ou téléchargez le code de chaque modèle.
Astuce : sur mobile, ouvrez les démos en plein écran pour une meilleure expérience.
Classement — Épreuve 1
Le plus rapide ET le plus abouti. Vitesse + finition + détail pertinent.
La profondeur technique (Boids + 2000 agents), mais lent et austère.
Sept fois plus lent, planté en route, et le résultat le plus minimal.
Une mise en garde, parce qu’on tient à l’honnêteté : une épreuve ne fait pas un verdict. Ce test mesure une chose précise — la génération de code créatif en one-shot. La sophistication algorithmique de Gemini est réelle et pourrait dominer sur d’autres critères. Mais sur « fais-moi une jolie ruche en HTML, vite et bien », le match est sans équivoque : Claude domine.
Épreuve 2 — Modéliser le système solaire
Nouveau terrain, même consigne ouverte : « Modélise-moi le système solaire. » Un classique, mais redoutable : il faut gérer la 3D ou la perspective, les orbites, les vitesses, et trouver le bon compromis entre rigueur scientifique et lisibilité. Et cette fois, surprise dès le départ.
GPT-5.5 s’est d’abord figé — comme à l’épreuve 1, il a fallu le relancer. À la seconde tentative, il a fini par livrer une copie… nettement plus modeste que les deux autres. Au final, les trois modèles ont rendu quelque chose, mais dans des registres très inégaux.
🔵 Gemini 3.1 Pro — la perspective qui en jette
Gemini a misé sur le spectacle. Une vue 3D inclinée, presque cinématographique, avec un Soleil jaune vif au centre et les planètes qui glissent sur leurs orbites en perspective. L’interface est soignée : un panneau de statut (« Objet : Système Solaire · En orbite »), un curseur de vitesse orbitale, et surtout un toggle « afficher les trajectoires » bien pratique. C’est immédiatement impressionnant à l’œil.
🟠 Claude Fable 5 — la rigueur qui rassure
Fable 5 a choisi une vue du dessus, plus sobre — mais bien plus rigoureuse. Les vitesses orbitales sont proportionnelles aux vraies périodes : Mercure boucle son tour en 88 jours, la Terre en 365, Neptune en ~165 ans. Résultat, on voit réellement Mercure filer pendant que les géantes lointaines avancent à peine. Saturne arbore ses anneaux, un compteur affiche le « temps écoulé » en années simulées. Et — fidèle à lui-même — Claude ajoute une note d’honnêteté : « distances et tailles non à l’échelle », en proposant d’ajouter orbites elliptiques, lunes ou échelle logarithmique si on le souhaite.
🟢 GPT-5.5 — l’essentiel, rien de plus
Après sa relance, GPT-5.5 a opté pour la simplicité radicale : un système solaire en CSS pur, sans une ligne de JavaScript. Huit planètes, huit orbites animées, un soleil lumineux. C’est propre, ça tourne, et le modèle a l’honnêteté d’afficher « tailles, distances et vitesses non à l’échelle ». Mais aucune interactivité — pas de pause, pas de réglage de vitesse — et aucune rigueur scientifique : les durées d’orbite sont arbitraires. La copie minimale, élégante dans son économie, mais clairement en retrait des deux autres.
Deux philosophies, encore : Gemini impressionne l’œil, Claude rassure le cerveau. Sur cette épreuve, le match est serré — et pour une fois, c’est Gemini qui prend l’avantage sur le rendu pur.
Épreuve 3 — Repenser la page d’accueil d’alsace.ai
On change radicalement de registre. Cette fois, pas de simulation ludique, mais une vraie commande de design : « Propose une refonte graphique de la page d’accueil d’alsace.ai. » Un exercice de goût, de hiérarchie et de cohérence de marque — bien plus subjectif que coder une ruche.
Les trois modèles ont rendu leur copie. Mais cette fois, une seule règle a tout décidé : avoir produit, ou non, un vrai visuel. Voici les trois résultats côte à côte.
Deux maquettes, un plan. La différence saute aux yeux.
🟠 Claude Fable 5 — la « Gazette augmentée »
Claude a poussé l’identité « journal » jusqu’au bout : fond crème papier, titres en Fraunces (serif de presse), données en IBM Plex Mono, filet double sous le masthead, le rouge réduit à un pur signal. C’est une vraie une de gazette numérique, assumée et documentée — il a même livré une mini-charte (typo, palette, grille) en prime.
🟢 GPT-5.5 — le média tech moderne
GPT-5.5 a visé un registre plus classique mais très abouti : un site d’actualité moderne, hero sombre et photographique, bloc « Télégramme du matin » en aplat rouge, grille d’analyses, agenda, signaux faibles. Plus « produit web 2026 » que « gazette ». C’est carré, complet, immédiatement lisible.
🔵 Gemini 3.1 Pro — le plan, sans la copie
Et Gemini ? C’est là que la troisième épreuve a tranché. Là où Claude et GPT ont produit quelque chose à regarder, Gemini 3.1 Pro a… posé des questions. Beaucoup. Au lieu d’une maquette, il a rendu un wireframe décrit en texte — un plan de page d’accueil, certes structuré et pertinent (header, hero, pôles d’expertise, ancrage local, méthodologie, footer), mais sans la moindre proposition visuelle. Et il a conclu en demandant de préciser la palette, le parcours UX et le contenu.
Sur le papier, le raisonnement est bon. Mais la consigne était de proposer une refonte graphique — pas d’en décrire le cahier des charges. Gemini a livré l’architecte, pas le dessin.
Épreuve 4 — Auditer un vrai dépôt de code
Le test le plus exigeant, et le plus « senior ». On confie aux trois modèles un véritable dépôt de code full-stack (Node / TypeScript) avec une consigne d’auditeur : « Fais une review complète — bugs, sécurité, architecture, tests, dépendances, performance. » Aucun joli visuel à produire ici : du raisonnement pur, sur du vrai code. (Pour des raisons évidentes, nous ne publions aucun détail sur le dépôt ni sur les failles trouvées.)
Avouons-le franchement : sur ce terrain, on attendait Claude au sommet. La chasse aux bugs et l’audit de sécurité, c’est réputé être sa spécialité. Et il a effectivement livré une analyse dense et fine… mais la vraie surprise est venue de GPT-5.5, qui n’a pas seulement tenu la distance — il a remporté la manche.
🟠 Claude Fable 5 — l’analyse fine, mais sur le papier
Claude a produit un audit statique très approfondi : lecture attentive du code, et plusieurs angles subtils que les autres ont ratés — des problèmes de concurrence, des points d’architecture délicats, des risques qu’on ne voit qu’en comprenant vraiment le code. Honnête, aussi : il signale clairement ce qu’il n’a pas pu vérifier faute de lancer le projet. Le revers : tout reste théorique. « Les dépendances semblent saines, à confirmer. »
🟢 GPT-5.5 — il a lancé les outils
La différence décisive : GPT-5.5 n’a pas deviné, il a exécuté. Build, tests, lint, audit des dépendances — il a réellement fait tourner la chaîne d’outils et chiffré ses résultats : vulnérabilités comptées, confirmation noir sur blanc que les tests et le linter étaient cassés. Dans un audit, « j’ai lancé l’analyse et voici ce qui sort » vaut infiniment plus que « il pourrait y avoir un problème ». C’est ce qui lui donne la victoire.
🔵 Gemini 3.1 Pro — le troisième forfait
Et Gemini ? Pour la troisième fois consécutive, il n’a rien livré d’exploitable. Sa réponse : « le fichier contient trop d’éléments à traiter. » Pas d’audit, pas de plan, rien. Une constante, désormais, dès qu’une tâche demande d’aller jusqu’au bout.
Le tableau des scores
| Épreuve | Claude Fable 5 | Gemini 3.1 Pro | GPT-5.5 |
|---|---|---|---|
| 1 — Ruche d’abeilles | 18/20 | 16/20 | 12/20 |
| 2 — Système solaire | 18/20 | 19/20 | 14/20 |
| 3 — Refonte homepage | 18/20 | 9/20 | 17/20 |
| 4 — Audit de code | 15/20 | 0/20 💀 | 17/20 |
| TOTAL | 69/80 | 44/80 | 60/80 |
Au terme des quatre épreuves, Claude Fable 5 s’impose largement : 69 points sur 80, et surtout la seule copie qui n’a jamais sombré — pas un seul zéro, pas un seul forfait. Sur la régularité, personne ne lui arrive à la cheville.
Derrière, GPT-5.5 (60) s’installe nettement à la deuxième place, devant Gemini (44). Le parcours d’OpenAI tient des montagnes russes : poussif et minimal sur les épreuves créatives rapides (la ruche, le système solaire), il a tout renversé sur les deux manches « sérieuses » — la refonte et surtout l’audit, où sa rigueur d’exécution a fait mouche. Gemini, lui, paie cher ses non-livraisons : éblouissant sur le système solaire (son 19 est le meilleur score individuel du benchmark), mais absent là où il fallait aller au bout — un plan sans maquette, puis un audit jamais rendu.
Rappel, toujours : ce benchmark mesure l’exécution concrète de tâches one-shot — coder, concevoir, auditer — pas l’ensemble des capacités de ces IA. Sur d’autres terrains, les cartes peuvent être rebattues. Mais sur « fais-le, vraiment, jusqu’au bout », notre classement est sans appel.
Le mot de la fin
Les notes finales
Le finisseur. Rapide, complet, jamais hors-jeu — pas un seul zéro en quatre épreuves. La valeur sûre quand il faut un résultat, tout de suite.
Le lent qui prouve. Poussif sur le créatif rapide, mais redoutable dès qu’il faut vraiment exécuter — son audit outillé lui vaut sa remontée.
Le perfectionniste qui cale. Capable du plus beau geste du benchmark (son système solaire), mais qui abandonne trop souvent en cours de route.
Avant tout, soyons honnêtes sur ce que vaut ce test : rien de professionnel. C’est un benchmark maison, bricolé dans notre coin, sans protocole ni contrôle. Des gens bien plus compétents que nous font de vrais benchmarks, rigoureux et chiffrés — ce sont eux la référence, allez les consulter. Nous, on s’est juste amusés à coller le même prompt trois fois et à regarder ce qui sortait, sur des situations proches de ce que nos équipes pourraient vraiment utiliser au quotidien. Voilà le cadre. Ni plus, ni moins.
Et au final ? Je suis assez partagé. Quatre petites épreuves, un peu différentes — même si, soyons francs, la ruche et le système solaire, c’est un peu le même exercice. Le côté hypersurvendu de Fable me déçoit un poil : il est très bon, indéniablement, mais pas le messie qu’on nous vend.
À l’inverse, je n’ai pas du tout eu le sentiment que GPT-5.5 était à côté de la plaque. Quelques cafouillages, oui — et tant qu’à être transparent : sur le solaire, il m’a d’abord sorti une image figée, un peu éclatée. Je lui ai glissé un mot de plus, et là, nickel. C’est pour ça qu’il n’a pas la note maximale sur cette épreuve : je l’ai un peu aidé. N’empêche qu’il s’en sort très bien.
Le verdict du jour, alors ? Claude Fable est clairement devant — sur le ressenti, disons « dix fois meilleur ». Sauf qu’il est aussi deux fois plus cher. Et c’est précisément là que je coince.
Du coup, je reste honnêtement mitigé. La vraie réponse, je l’aurai dans les semaines qui viennent, à l’usage réel — pas sur quatre démos faites un soir. À suivre, donc.
— Mathias, Alsace·AI


