FuriosaAI abandonne l’approche GPU avec un puce inference Broadcom 2nm, annonce une bande HBM4/E supérieure aux GPU les plus efficaces

Par Quentin Le 27 Mai 2026 à 19 h 12

La startup FuriosaAI s’associe au géant Broadcom pour créer un accélérateur IA de nouvelle génération. Leur objectif est de répondre aux besoins croissants de l’inférence, en particulier pour les LLM et l’IA agentique. Cette collaboration vise à dépasser les limites des GPU actuels en matière d’efficacité énergétique et de débit.

Un accélérateur IA de 3ème génération pour clusters massifs

FuriosaAI a dévoilé les plans de son accélérateur d’IA de troisième génération. Cette nouvelle plateforme succède à la seconde génération RNGD, actuellement en production de masse chez TSMC en gravure 5nm. La précédente solution adoptait un format PCIe de 180W, ciblant les charges de travail liées aux LLM et à l’IA agentique. Cette nouvelle mouture se concentre pleinement sur le segment de l’inférence IA, dont la demande explose.

L’accélérateur de troisième génération de FuriosaAI se distingue par plusieurs caractéristiques principales :

La plateforme combine une gravure de calcul en 2nm avec de la mémoire HBM4/4E. Elle est conçue pour permettre une mise en réseau à haute bande passante au niveau des baies, au sein de clusters de calcul IA massifs.
Son architecture est optimisée pour les tâches d’inférence exigeantes, en privilégiant le mouvement de données à haut débit. Cela promet une meilleure performance par watt et une densité de tokens supérieure aux GPU les plus efficaces du marché.
Elle s’appuie sur la puce RNGD actuelle, déjà produite en série. Parmi ses clients figurent Samsung SDS et LG AI Research.

Pour les détails techniques, la puce utilisera un die de calcul en 2nm et la norme de mémoire HBM4/E. Le partenariat avec Broadcom est crucial pour l’intégration d’emballage avancé, permettant de fusionner plusieurs dies de silicium en une seule puce IA performante (System-on-chip).

Une image promotionnelle révèle une puce équipée de 12 emplacements mémoire HBM4/E, deux larges chiplets de calcul (2nm) et deux contrôleurs d’E/S. Ceci pourrait représenter jusqu’à 432 Go de mémoire si Furiosa utilise des modules de 36 Go par pile de 12 couches.

Outre l’architecture de calcul, FuriosaAI exploitera également les blocs de propriété intellectuelle Ethernet et PCIe de Broadcom pour augmenter la bande passante et la connectivité à l’échelle d’un rack. La puce est conçue pour des charges de travail IA du monde réel comme l’échantillonnage post-entraînement, où un haut débit est primordial, justifiant le recours aux standards HBM4/E.

Présentation de la feuille de route de FuriosaAI intitulée 'Roadmap to Scaled Deployment and Platform Leadership', détaillant les lancements prévus entre 2023 et au-delà de 2028, incluant les serveurs 'RNGD NXT Server 1' et 'RNGD NXT Server 2'.

La société affirme que sa priorité sur la bande passante plutôt que sur la gestion des threads (nécessaire pour les GPU) offrira une meilleure efficacité et un débit de tokens plus élevé que les architectures graphiques actuelles. Elle souligne aussi que son logiciel permet aux développeurs de déployer rapidement de nouveaux modèles d’IA tout en respectant les exigences de débit et de latence.

Le kit de développement Furiosa utilise un compilateur général qui traduit automatiquement le code PyTorch de haut niveau pour le silicium. Pour un contrôle plus fin, le modèle de programmation déclaratif Virtual ISA de Furiosa offre un accès au matériel sans la complexité non déterministe de la programmation GPU traditionnelle.

« Associer les capacités d’infrastructure de Broadcom à l’architecture de processeur à contraction tensorielle de Furiosa et à sa pile logicielle nous permet d’aller au-delà de la puce et de proposer une solution complète pour l’ère de la production de tokens », a déclaré June Paik, cofondatrice et PDG de Furiosa.

Concernant la disponibilité, des exemplaires de l’accélérateur FuriosaAI de 3ème génération devraient être distribués au premier semestre 2028. Elle sera conçue pour répondre aux besoins de calcul des centres de données IA de nouvelle génération.