Nature : les scientifiques humains écrasent les meilleurs agents IA sur les tâches complexes

Les manchettes de ces derniers mois n’ont pas manqué d’audace : des agents IA qui « font de la science autonomement », des systèmes capables de « remplacer les chercheurs »… Une étude publiée dans Nature vient doucher ces enthousiasmes avec des données précises. Sur des tâches scientifiques complexes et multi-étapes, les meilleurs agents IA disponibles obtiennent environ la moitié du score des scientifiques humains. Ni plus, ni moins.

Ce que mesure l’étude

Les chercheurs ont soumis les modèles leaders — GPT, Claude, Gemini dans leurs versions les plus récentes — à des tâches de recherche réelles, impliquant plusieurs étapes interdepéndantes : formuler une hypothèse, concevoir un protocole, interpréter des résultats ambigus, ajuster la démarche. Ce n’est pas le type de benchmark où il s’agit de répondre à une question bien définie. C’est la science telle qu’elle se pratique : itérative, incertaine, dépendante du contexte.

Résultat : les agents autonomes plafonnent à environ 50 % du score moyen des docteurs humains sur ces tâches. Le benchmark APEX-Agents, qui évalue les modèles sur des workflows professionnels réels, arrive à des conclusions similaires : le meilleur modèle testé atteint 24 % de taux de réussite sur des tâches professionnelles complexes — à peine un quart.

Ce que les agents font bien, et ce qu’ils ratent

Les faiblesses identifiées sont instructives. Les agents IA peinent particulièrement sur la formulation du problème — comprendre quelle question vaut la peine d’être posée. Ils accumulent des informations mais tâtonnent pour décider quelles étapes entreprendre dans l’incertitude. Ils proposent des pipelines techniques sophistiqués qui, en pratique, dégradent les résultats plutôt qu’ils ne les améliorent. La connaissance du domaine — ce savoir implicite que les chercheurs humains accumulent en lisant, en échangeant, en se trompant — reste difficilement transmissible à un agent par simple scaling.

En revanche, là où les agents excellent déjà : l’exécution de tâches bien définies, la synthèse rapide de littérature, le prototypage de code, la vérification systématique. Des tâches qui sont souvent les plus chronophages pour les chercheurs humains. La complémentarité est réelle, mais elle n’est pas là où le marketing la place.

Le problème du discours ambiant

Ce qui est préoccupant, ce n’est pas que les agents IA aient des limites — c’est tout à fait attendu à ce stade. Ce qui est préoccupant, c’est l’écart entre les limites documentées et la façon dont ces systèmes sont présentés au grand public et aux décideurs. « L’IA va remplacer les scientifiques » est une formule qui fait de l’audience. « Les meilleurs agents IA performent à 50 % d’un doctorant sur des tâches complexes » est une formule qui dit la vérité.

Cette confusion a des conséquences concrètes : des budgets de R&D réorientés trop vite, des recrutements de chercheurs ralentis sous prétexte que « l’IA va le faire », des attentes manégeriales déconnectées des réalités opérationnelles. Les outils IA ont leur place dans la recherche scientifique — une place croissante et légitime. Mais c’est une place d’assistant puissant, pas de remplaçant.

Conclusion

L’étude de Nature est un rappel utile que les benchmarks dits « surhumains » mesurent souvent des capacités très spécifiques — reconnaissance de patterns, mémorisation, calcul — et non les compétences cognitives de haut niveau qui définissent la science au sens plein du terme. Le chantier reste immense, les progrès sont réels, mais l’honnêteté sur l’état actuel des systèmes devrait primer sur le storytelling. C’est vrai pour les laboratoires. C’est vrai pour la presse. Et c’est vrai pour nous.

Ce que mesure l’étude

Ce que les agents font bien, et ce qu’ils ratent

Le problème du discours ambiant

Conclusion

Sources

Rencontres IA et Innovation 2026 : 230 participants réunis par le cluster ENACT à Strasbourg

Gemma 4 en local avec Claude Code : le guide pour s’affranchir des API payantes

Classement AI50 : les 50 entreprises qui dominent l’innovation IA