GPU Feynman de NVIDIA pourrait intégrer des unités LPU de Groq d’ici 2028, empilées comme les AMD X3D

Par Guillaume Meyer Mis à jour le 30 Déc 2025 à 12 h 05

NVIDIA ambitionne de dominer le secteur de l’inférence avec ses futures puces Feynman, intégrant éventuellement des unités LPU dans son architecture.

NVIDIA et la technologie hybride pour l’inférence

L’accord de licence IP entre NVIDIA et Groq pour les unités LPU peut sembler modeste face aux chiffres d’acquisition, mais l’objectif est clair : devenir leader du segment d’inférence. NVIDIA planifie d’intégrer les LPU sur ses nouvelles GPU Feynman via la technologie de bonding hybride de TSMC.

Groq LPU blocks will first appears in 2028 in Feynman (the post Rubin generation).
Deterministic, compiler-driven dataflow with static low-latency scheduling and Higher Model Floats Utilization (MFU) in low-batch scenarios will give Feynman immense inference performance boost in… https://t.co/GVZCWiENC2

— AGF (@XpeaGPU) Décembre 28, 2025

Selon AGF, la méthode d’intégration pourrait s’inspirer des CPU X3D d’AMD, utilisant également la technologie de bonding hybride de TSMC pour optimiser les tuiles de cache. L’échelle SRAM est limitée, et construire sur des nœuds avancés impliquerait un coût élevé et inefficace. AGF pense que NVIDIA superposera donc les unités LPU sur le die principal de la Feynman.

Cette approche semble logique, le die principal A16 (1,6 nm) contenant les unités de traitement, tandis que les dies LPU hébergeront d’importants bancs de SRAM. La technologie de bonding hybride de TSMC est cruciale pour assurer une connexion efficace et une consommation énergétique réduite par bit par rapport à la mémoire hors package. Avec un système d’alimentation à l’arrière, la face avant sera libérée pour les connexions SRAM verticales, limitant les latences.

Toutefois, des défis thermiques demeurent, car superposer des dies sur des processus à forte densité de calcul pourrait créer des bottleneck (goulots d’étranglement). L’approche d’exécution fixe des LPU pourrait également provoquer des conflits entre la déterminisme et la flexibilité.

Si NVIDIA parvient à surmonter ces contraintes matérielles, l’intégration de SRAM dans les architectures IA posera un défi majeur, notamment avec le fonctionnement de CUDA dans ce nouvel environnement LPU-GPU. Pour s’imposer dans ce secteur d’inférence, NVIDIA devra investir dans l’optimisation de ses solutions.

AMD NVIDIA