Les manchettes de ces derniers mois n’ont pas manqué d’audace : des agents IA qui « font de la science autonomement », des systèmes capables de « remplacer les chercheurs »… Une étude publiée dans Nature vient doucher ces enthousiasmes avec des données précises. Sur des tâches scientifiques complexes et multi-étapes, les meilleurs agents IA disponibles obtiennent environ la moitié du score des scientifiques humains. Ni plus, ni moins.
Ce que mesure l’étude
Les chercheurs ont soumis les modèles leaders — GPT, Claude, Gemini dans leurs versions les plus récentes — à des tâches de recherche réelles, impliquant plusieurs étapes interdepéndantes : formuler une hypothèse, concevoir un protocole, interpréter des résultats ambigus, ajuster la démarche. Ce n’est pas le type de benchmark où il s’agit de répondre à une question bien définie. C’est la science telle qu’elle se pratique : itérative, incertaine, dépendante du contexte.
Résultat : les agents autonomes plafonnent à environ 50 % du score moyen des docteurs humains sur ces tâches. Le benchmark APEX-Agents, qui évalue les modèles sur des workflows professionnels réels, arrive à des conclusions similaires : le meilleur modèle testé atteint 24 % de taux de réussite sur des tâches professionnelles complexes — à peine un quart.
Ce que les agents font bien, et ce qu’ils ratent
Les faiblesses identifiées sont instructives. Les agents IA peinent particulièrement sur la formulation du problème — comprendre quelle question vaut la peine d’être posée. Ils accumulent des informations mais tâtonnent pour décider quelles étapes entreprendre dans l’incertitude. Ils proposent des pipelines techniques sophistiqués qui, en pratique, dégradent les résultats plutôt qu’ils ne les améliorent. La connaissance du domaine — ce savoir implicite que les chercheurs humains accumulent en lisant, en échangeant, en se trompant — reste difficilement transmissible à un agent par simple scaling.
En revanche, là où les agents excellent déjà : l’exécution de tâches bien définies, la synthèse rapide de littérature, le prototypage de code, la vérification systématique. Des tâches qui sont souvent les plus chronophages pour les chercheurs humains. La complémentarité est réelle, mais elle n’est pas là où le marketing la place.
Le problème du discours ambiant
Ce qui est préoccupant, ce n’est pas que les agents IA aient des limites — c’est tout à fait attendu à ce stade. Ce qui est préoccupant, c’est l’écart entre les limites documentées et la façon dont ces systèmes sont présentés au grand public et aux décideurs. « L’IA va remplacer les scientifiques » est une formule qui fait de l’audience. « Les meilleurs agents IA performent à 50 % d’un doctorant sur des tâches complexes » est une formule qui dit la vérité.
Cette confusion a des conséquences concrètes : des budgets de R&D réorientés trop vite, des recrutements de chercheurs ralentis sous prétexte que « l’IA va le faire », des attentes manégeriales déconnectées des réalités opérationnelles. Les outils IA ont leur place dans la recherche scientifique — une place croissante et légitime. Mais c’est une place d’assistant puissant, pas de remplaçant.
Conclusion
L’étude de Nature est un rappel utile que les benchmarks dits « surhumains » mesurent souvent des capacités très spécifiques — reconnaissance de patterns, mémorisation, calcul — et non les compétences cognitives de haut niveau qui définissent la science au sens plein du terme. Le chantier reste immense, les progrès sont réels, mais l’honnêteté sur l’état actuel des systèmes devrait primer sur le storytelling. C’est vrai pour les laboratoires. C’est vrai pour la presse. Et c’est vrai pour nous.
Sources
- Human scientists trounce the best AI agents on complex tasks — Nature
- Technical Performance — 2026 AI Index Report, Stanford HAI
- AgentDS Technical Report: Benchmarking Human-AI Collaboration — arXiv
- APEX-Agents Benchmark: AI Models Struggle with Real-World Tasks — Creati.ai
- AI Benchmarks 2026: Top Evaluations and Their Limits — Kili Technology

