Google et Marvell discutent d’un partenariat autour de deux puces destinées à accélérer l’inférence IA chez le géant de Mountain View. Au programme: une unité de traitement mémoire qui épaulerait les TPU actuels et un nouveau TPU pensé pour exécuter les modèles avec plus d’efficacité. L’objectif est de s’attaquer aux goulots d’étranglement côté mémoire et de mieux exploiter l’infrastructure déjà déployée à grande échelle. Les informations proviennent de sources proches du dossier citées par The Information.
Google pourrait s’associer à Marvell pour renforcer l’écosystème TPU pour les modèles IA next-gen
Google travaillerait avec Marvell sur deux puces: l’une pour optimiser les TPU existants, l’autre correspondant à un TPU de nouvelle génération.
Selon The Information, Google et Marvell ont entamé des discussions pour co-développer deux nouvelles puces dédiées à l’inférence.
Google discute avec Marvell Technology du développement de deux nouvelles puces visant à exécuter les modèles d’IA plus efficacement, d’après deux personnes au fait des pourparlers. La première est une unité de traitement mémoire conçue pour fonctionner aux côtés du tensor processing unit de Google. La seconde est un nouveau TPU spécifiquement bâti pour faire tourner des modèles d’IA.
via The Information
Le stade précis des négociations n’est pas clair, mais deux axes semblent actés: un composant pensé pour doper les TPU existants et un design de TPU totalement nouveau.
Les deux projets poursuivent des objectifs distincts. Le premier n’est pas un TPU sur mesure mais une unité de traitement mémoire (MPU) qui s’associe à un TPU. L’idée est de rapprocher certaines opérations des banques mémoire afin de délester le processeur ou le système, en externalisant une partie des accès et traitements vers ce MPU dédié.

Le second projet porterait sur un TPU de nouvelle génération, optimisé pour l’inférence. Aujourd’hui, l’accélérateur phare de Google est le TPU v7, alias Ironwood: 192 Go de mémoire HBM, jusqu’à 4 614 TFLOPS en pointe, et un déploiement en Superpod regroupant 9 216 puces.
Si les ASIC dédiés gagnent du terrain pour l’inférence, la chaîne d’approvisionnement demeure tendue. La demande pour les TPU de Google, dont Ironwood, progresse, mais la capacité de production atteint ses limites chez la plupart des fondeurs majeurs.
Le MPU évoque un accélérateur d’inférence secondaire, à l’image du Groq 3 LPX, une LPU (Language Processing Unit). Cette puce embarque 500 Mo de SRAM et revendique 150 To/s de bande passante totale pour maximiser les charges Agentic AI sur les prochaines plateformes Vera Rubin.
Si ces informations se confirment, l’association de TPU nouvelle génération et de MPU dédiés chez Google pourrait accélérer sensiblement le sous-système mémoire et améliorer les performances des modèles, en particulier en inférence.



