Google Cloud Next 2026 : TPU 8e génération et 75% du code écrit par l’IA

Veille IA // Lundi 4 mai 2026 // Strasbourg

Google a frappé fort lors de son événement annuel Cloud Next 2026, tenu à Las Vegas fin avril. Deux nouvelles puces d’IA de 8e génération, une plateforme d’agents unifiée, et une statistique qui donne le vertige : 75% du nouveau code produit chez Google est aujourd’hui généré par l’IA. Ce chiffre, lâché par le PDG Sundar Pichai dans une vidéo pré-enregistrée, résume à lui seul la vitesse à laquelle le développement logiciel est en train de changer.

Deux puces, deux usages : la bifurcation du silicium IA

Google a présenté ses TPU de 8e génération sous deux formes distinctes, chacune optimisée pour un usage différent — une décision architecturale qui marque une rupture avec les puces « tout-en-un » qui dominaient jusqu’ici.

Le TPU 8t est conçu pour l’entraînement des grands modèles. Développé avec Broadcom, il s’assemble en superpods de 9 600 unités couplées à 2 pétaoctets de mémoire HBM partagée — une densité mémorielle vertigineuse. Par rapport à la génération précédente (Ironwood), il offre 2,8 fois plus de performance à la consommation électrique équivalente. L’objectif : réduire le coût carbone et financier des méga-entraînements.

Le TPU 8i s’attaque quant à lui à l’inférence — c’est-à-dire à l’exécution des modèles en production, en temps réel. Conçu avec MediaTek, il triple la mémoire SRAM embarquée (384 Mo), double la bande passante inter-puces (19,2 Tb/s), et introduit une nouvelle topologie réseau baptisée Boardfly qui réduit le diamètre du réseau de 56%. Traduction : des agents IA capables de gérer des millions de requêtes simultanées avec une latence réduite. C’est le carburant du déploiement à grande échelle des agents autonomes.

La plateforme Gemini Enterprise : Vertex AI repensé pour l’ère agentique

Google en a profité pour rebaptiser et refondre Vertex AI en Gemini Enterprise Agent Platform. La promesse : un environnement unifié pour construire, déployer, superviser et gouverner des agents IA à l’échelle de l’entreprise. La plateforme embarque désormais un Agent Studio pour concevoir des workflows, un système d’orchestration agent-à-agent, un Agent Registry (annuaire d’agents), et des outils d’observabilité pour suivre ce que font vraiment ces agents en production.

L’accès couvre plus de 200 modèles — dont les nouveaux Gemini 3.1 Pro et Flash, Gemma 4 en open source, et des modèles tiers comme Claude d’Anthropic. Un signal intéressant : même dans son propre écosystème, Google laisse une fenêtre ouverte à la concurrence. La guerre des modèles se joue aussi au niveau des plateformes d’intégration.

En parallèle, Sundar Pichai a confirmé que les dépenses d’investissement de Google pour 2026 s’élèveront entre 175 et 185 milliards de dollars, avec un carnet de commandes cloud déjà à 243 milliards. Les chiffres de la course aux infrastructures IA donnent des vertiges.

75% du code généré par l’IA : ce que ça change vraiment

Il y a un an, Google déclarait que l’IA produisait environ 25% de son code. Aujourd’hui, ce chiffre atteint 75%. Cette progression n’est pas une extrapolation marketing : c’est une transformation structurelle du métier de développeur tel qu’il existe dans les plus grandes organisations technologiques mondiales.

Ce qui change, ce n’est pas que les ingénieurs disparaissent. C’est que leur rôle se déplace : moins de frappe de code, plus de supervision, d’arbitrage architectural, de relecture critique. Dans les grandes entreprises tech, un ingénieur productif en 2026 peut en remplacer trois ou quatre en 2024 — non pas parce que les outils font tout, mais parce qu’ils absorbent les tâches répétitives à haute vitesse.

Ce qui interroge, c’est la vitesse de cette bascule. En dix-huit mois, Google est passé du quart aux trois quarts. À ce rythme, la question du « reste humain » dans le code devient moins théorique et plus opérationnelle. Qui valide ? Qui prend la responsabilité d’un bug généré par une IA ? Qui comprend encore l’ensemble du système ?

On peut y voir deux réalités simultanées : une montée en puissance évidente de la productivité — et un creusement du fossé entre les équipes capables d’intégrer ces outils et celles qui ne le peuvent pas encore. La compétence IA devient moins un avantage différenciant qu’une condition d’accès de base.

Ce que cela implique

Google joue ici sur plusieurs tableaux à la fois : infrastructure propriétaire (TPU), plateforme d’agents (Gemini Enterprise), modèles (Gemini + Gemma), et maintenant chiffres d’adoption interne. Chaque annonce de Cloud Next renforce un peu plus l’idée que l’écosystème Google Cloud est désormais autosuffisant pour les entreprises qui veulent déployer de l’IA à grande échelle.

Face à Microsoft/Azure/OpenAI et Amazon/AWS/Bedrock, Google adopte une stratégie différente : celle du full stack IA, du chip au workflow métier. La bifurcation TPU 8t/8i est emblématique de cette logique — plutôt qu’une puce polyvalente, deux outils spécialisés pour chaque étape du cycle de vie des modèles. C’est une vision d’ingénierie sérieuse, moins marketing que les annonces habituelles du secteur.

Reste la question de l’équilibre des pouvoirs. Quand une seule entreprise contrôle les puces, les modèles, la plateforme et l’infrastructure qui font tourner l’IA de ses clients enterprise, la notion de souveraineté numérique prend un sens très concret. Strasbourg n’est pas Las Vegas, mais les décisions prises là-bas façonnent les outils que les entreprises alsaciennes utiliseront dans six mois.

Glossaire express

TPU (Tensor Processing Unit) : puce d’IA conçue par Google, optimisée pour les calculs matriciels utilisés dans l’entraînement et l’inférence des modèles de machine learning.
HBM (High Bandwidth Memory) : type de mémoire RAM ultra-rapide, empilée directement sur le processeur, utilisée pour les charges de travail IA massives.
Inférence : phase d’utilisation d’un modèle déjà entraîné pour produire des réponses.
Agent IA : programme capable d’agir de manière autonome sur des tâches complexes, enchaînant plusieurs étapes sans intervention humaine à chaque étape.
Topologie Boardfly : nouvelle architecture réseau développée par Google pour connecter les TPU 8i entre eux, réduisant les délais de communication dans les très grandes clusters d’inférence.

Deux puces, deux usages : la bifurcation du silicium IA

La plateforme Gemini Enterprise : Vertex AI repensé pour l’ère agentique

75% du code généré par l’IA : ce que ça change vraiment

Ce que cela implique

Glossaire express

Sources

NVIDIA GTC 2026 : l’architecture Feynman en 1,6 nm, die-stacking 3D et interconnexions optiques

DeepSeek V3.2 surpasse GPT-5 en open source : la nouvelle donne de l’IA

Apple x Google : pourquoi Siri passe sous moteur Gemini