Lors de son événement Cloud Next ’25, Google Cloud a levé le voile sur Ironwood, sa 7e génération de TPU (Tensor Processing Unit), une puce dédiée à l’intelligence artificielle qui pourrait bien redéfinir les standards en matière de calcul IA.
Conçu pour répondre à la demande explosive en inférence, Ironwood ne se contente pas de rivaliser avec les superordinateurs les plus puissants : elle les surpasse largement.
Ironwood: des performances inédites à l’échelle
Conçu exclusivement pour l’inférence — c’est-à-dire l’exécution de modèles IA entraînés pour générer des réponses ou des prédictions — Ironwood affiche des chiffres vertigineux. Une grappe (ou pod) de 9 216 puces Ironwood atteint 42,5 exaflops, soit 25 fois plus que le supercalculateur El Capitan (1,7 exaflops), considéré aujourd’hui comme le plus rapide du monde.
Chaque puce Ironwood embarque :
- 4 614 teraflops de puissance de calcul.
- 192 Go de mémoire HBM (6x plus que Trillium, son prédécesseur)
- Une bande passante mémoire de 7,2 Tb/s.
- Une efficacité énergétique doublée par rapport à Trillium
- Une consommation 30 fois plus efficace que les premières Cloud TPU de 2018
L’ère de l’inférence : une nouvelle étape pour l’IA
Google affirme que nous sommes désormais dans l’« âge de l’inférence », où les agents IA ne se contentent plus de répondre à des questions, mais raisonnent, anticipent et collaborent. Le focus ne se fait plus sur l’entraînement de gigantesques modèles, mais sur leur exploitation efficace à l’échelle.
« Nous assistons à une montée en puissance de l’inférence, car les interactions avec les IA se comptent en milliards chaque jour », explique Amin Vahdat, VP chez Google Cloud.
Gemini 2.5 et l’IA de demain
Ironwood alimentera les futurs modèles IA les plus avancés de Google, notamment Gemini 2.5, décrit comme ayant des capacités de raisonnement natives. En complément, Google a aussi dévoilé Gemini 2.5 Flash, une version plus rapide et économique, qui adapte la profondeur de raisonnement à la complexité de la requête.
Parallèlement, Google continue de développer ses outils génératifs, avec notamment du texte vers l’image, du texte vers la vidéo et même du texte vers la musique, via une nouvelle IA appelée Lyria.
Une vision complète : du silicium à l’infrastructure globale
Ironwood s’inscrit dans une stratégie d’intégration verticale. Google ne se limite pas aux puces, mais propose :
- Cloud WAN, un réseau privé mondial à haute performance
- Pathways, son runtime IA développé avec DeepMind, pour distribuer les modèles sur des centaines de TPU
- Une approche ouverte avec des standards d’interopérabilité entre agents IA (Agent-to-Agent, A2A)
Interopérabilité et agents intelligents
L’un des moments phares de Cloud Next ’25 fut l’annonce de Agent Development Kit (ADK) et du protocole A2A, qui permettent à plusieurs agents IA de collaborer intelligemment, même s’ils sont développés sur des plateformes différentes.
« 2025 sera l’année de transition où l’IA générative passera de la réponse à la résolution de problèmes complexes via des systèmes multi-agents », prédit Google.
Des partenaires majeurs comme Salesforce, ServiceNow ou SAP soutiennent déjà cette approche.
Une stratégie offensive face à Microsoft et Amazon
Face à Microsoft Azure (allié à OpenAI) et AWS (avec ses puces Trainium et Inferentia), Google mise sur sa maîtrise complète de la pile IA : du matériel au logiciel en passant par l’infrastructure.
Avec un chiffre d’affaires Cloud de 12 milliards de dollars au T4 2024 (+30 %), Google se positionne désormais comme un acteur clé du cloud IA de demain.
Ironwood propulse Google dans une nouvelle ère
Avec Ironwood, Google ne cherche pas simplement à accélérer l’IA : il veut la rendre accessible, durable et interconnectée. Que ce soit pour des modèles de recherche médicale, de finance ou de créativité, Google entend proposer l’infrastructure qui alimente déjà ses propres outils (Search, Gmail, YouTube) à toutes les entreprises prêtes à franchir le cap.
La question reste de savoir si ses concurrents répondront rapidement avec leurs propres architectures optimisées pour l’inférence. Mais une chose est sûre : la guerre du silicium IA ne fait que commencer.