Lors de la conférence Hot Chips 2025, Google a présenté des détails concernant sa nouvelle plateforme TPU, nommée Ironwood, et son évolutivité au niveau des racks.
La plateforme Ironwood de Google offre des performances impressionnantes par rapport aux générations précédentes
La 7ème génération de l’architecture TPU, connue sous le nom d’Ironwood, a été dévoilée en avril, affichant une performance 24 fois supérieure aux supercalculateurs les plus puissants d’aujourd’hui. Google a commencé Hot Chips 2025 en récapitulant ses systèmes TPU existants et leur évolution au fil du temps.

En 2022, Google a lancé le TPU v4, intégrant 4096 puces par pod, 32 Go de mémoire HBM à 1,2 To/s, et 275 TFLOPs par puce. L’année suivante, le TPU v5p a apporté 8960 puces, 95 Go de mémoire HBM à 2,8 To/s, et 459 TFLOPs. Pour 2025, le Superpod Ironwood offrira 9216 puces avec 192 Go de mémoire HBM à 7,4 To/s, atteignant ainsi 4614 TFLOPs par puce, soit une augmentation de plus de 16 fois par rapport au TPU v4.

Google a ensuite approfondi le fonctionnement du Superpod Ironwood et du cluster Max-scale. Le bloc central de ce système est le SoC Ironwood. Quatre de ces puces se trouvent sur la carte mère Ironwood PCBA, insérées dans un rack TPU Ironwood. Un rack TPU Ironwood empile 16 PCBAs, fournissant une solution à 64 puces.

Concernant la solution d’interconnexion, Google utilise l’InterChip Interconnect (ICI), un réseau évolutif. Ce réseau connecte jusqu’à 43 blocks (un block représente 64 puces) de Superpods à l’aide d’un réseau de 1,8 Petabyte. Les communications internes sont gérées via divers NICs.
Google propose une suite de racks dans un superpod. Le Superpod Ironwood comprend 144 racks, un Boîtier de commutation optique pour activer l’ICI à l’échelle, et un rack CBU pour la distribution de liquide.

Pour le rack, Google applique une disposition en Torus 3D pour ses TPU depuis au moins les trois dernières générations. Chaque bloc logique se compose d’un réseau 3D 4x4x4, totalisant 64 puces ou nœuds, empaquetés dans un seul rack.

L’interconnexion adopte une approche hybride avec des échanges de PCB et des liaisons en cuivre vers des câbles, ainsi que des liens optiques ou en fibre se raccordant à l’OCS. Cela permet une flexibilité accrue.
Enfin, en haut du rack se trouve un bac de récupération, détectant d’éventuelles fuites, suivi de l’alimentation où deux domaines électriques convertissent le courant AC de 416 volts en DC. Ce système entièrement chargé peut supporter plus de 100 kW de puissance en un seul fonctionnement. Cela conclut ce aperçu des innovations autour du TPU Ironwood.



