NVIDIA : Serveurs Ampere A100, carte réseau avec GPU intégré, nouvelles plateformes

Isaac et Jarvis sont dans une voiture autonome...
NVIDIA : Serveurs Ampere A100, carte réseau avec GPU intégré, nouvelles plateformes

Comme à chaque GTC, NVIDIA multiplie les annonces sur tous les fronts : les serveurs et de nouvelles plateformes logicielles bien entendu, mais aussi des partenariats dans les domaines de la robotique, de la voiture autonome et... une carte réseau 2x 100G ave un GPU Ampere intégré (pour la 5G, entre autres) !

Lors de sa conférence en ligne organisée en marge de la GTC 2020, NVIDIA a dévoilé son GPU exploitant l'architecture Ampere, visant le datacenter : l'A100. Une première annonce de taille, mais c'était loin d'être la seule. Ce produit est en effet décliné de nombreuses manières, accompagné de nombreuses évolutions logicielles.

DGX et HGX A100, SuperPod, SaturNV : des GPU par milliers

Il y a bien entendu DGX A100 : la baie « maison » de NVIDIA qui exploite huit GPU A100 au format SXM4. Ils utilisent six NVSwitch de nouvelle génération (600 Go/s de GPU à GPU, doublée), mais pas que. On note un autre changement de taille : ce sont des processeurs EPYC d'AMD à 64 cœurs (Rome, 7 nm) qui sont désormais utilisés plutôt que des Xeon d'Intel. Le tout est accompagné de 15 To de SSD (NVMe, Gen 4) et 9 cartes réseau 2x 100G Mellanox ConnectX-6 VPI. 

De quoi développer une puissance de calcul de 156 TFLOPS, (10 PetaOPS en INT8). NVIDIA précise que ses GPU peuvent être utilisés de manière unifiée, mais aussi que chacun peut être divisé en sept petits GPU via MIG (Multi-Instance GPU), soit 56 par DGX A100... chacun étant plus performant qu'une Tesla T4 précise le constructeur.

Tarif de départ de la bête : 199 000 dollars. Bien entendu, Jen Hsun Huang en profite pour placer son habituel « The more you buy, the more you save », indiquant que ces baies permettent de se débarrasser de centaines de serveurs CPU et de leur consommation, avec des performances similaires... mais pour une fraction du prix. 

Ce sera aux clients d'en juger, afin de savoir à qui ils signeront leur chèque. Pour convaincre de nouveaux prospects, l'entreprise ajoute cette fois quelques données chiffrées issues de cas précis. Les DGX A100 peuvent eux-mêmes être regroupés en Superpod, qui peuvent également travailler ensemble. Comptez 140 baies, soit 1 120 GPU. NVIDIA en a profité pour mettre à jour son SaturNV

Plusieurs clients ont déjà passé commande de leur DGX A100, notamment des centres de recherches et laboratoires (situé pour certains en Allemagne). Allegro AI, cnvrg.io, Core Scientific, Domino Data Lab, Iguazio et Paperspace intègre pour leur part le programme DGX-Ready Software. Des DGXpert peuvent aussi être désignés, comme experts dans le domaine de l'IA aidant les clients de NVIDIA à exploiter les solutions DGX.

Notez qu'une déclinaison HGX est également au rendez-vous. Pour rappel, il s'agit de celle proposée par des intégrateurs tiers ou des services Cloud. De nombreux partenaires sont annoncés.

  • NVIDIA DGX HGX A100
  • NVIDIA DGX HGX A100
  • NVIDIA DGX HGX A100
  • NVIDIA DGX HGX A100
  • NVIDIA DGX HGX A100
  • NVIDIA DGX HGX A100

EGX A100 : réseau et GPU combinés dans une même carte

Autre grande nouveauté du jour, l'incursion enfin assumée de NVIDIA dans les télécoms. Comme Intel et son SoC Snow Ridge, ou ses solutions FPGA (N3000), le constructeur veut aller sur ce marché au potentiel commercial important, surtout avec le déploiement des réseaux 5G qui va commencer. L'Aerial SDK est ainsi mis en ligne.

Mais il vise également la robotique et les usages industriels, le médical ou la tendance Smart City avec son projet Metropolis, dont EGX est désormais une brique essentielle. L'EGX A100 combine ainsi une puce Mellanox ConnectX-6 Dx et un GPU Ampere avec Tensor Core de 3e génération (caractéristiques non détaillées). Les flux peuvent directement transiter par le GPU pour être traités : analyse et compression vidéo, de données, etc.

NVIDIA assure que tout est mis en place pour assurer la sécurité et la confidentialité des informations qui transitent par sa puce. Le tout pouvant être virtualisé, exploitant Infiniband ou Ethernet selon les besoins. La stack logicielle EGX a été mise à jour pour coller à ces usages et devrait sans doute continuer d'évoluer dans les mois à venir. Il sera intéressant de voir quels gros clients NVIDIA arrive à attirer avec de telles solutions.

EGX A100 sera disponible d'ici la fin de l'année. On apprend au passage que la carte EGX Jetson Xavier NX, pensée pour des micro serveurs edge est désormais disponible pour 399 dollars.

Mellanox annonce au passage son ConnectX-6 Lx, un SmartNIC 2x 25G (ou 1x 50G) PCIe 3.0/4.0 x8 avec accélération IPSec, RDMA GPUDirect pour NVMeOF (OverFabrics), Accelerated switching and packet processing (ASAP²), SR-IOV et VirtIO. Elle sera disponible pendant le troisième trimestre 2020.

  • NVIDIA EGX A100
  • NVIDIA EGX A100
  • NVIDIA EGX A100

Plateformes et stacks logicielles en veux-tu en voilà !

La présentation de Jen Hsun Huang a aussi été l'occasion d'évoquer de nombreux partenariats, évolutions logicielles, outils et autres annonces, trop nombreuses pour être toutes détaillées. 

On pense à CUDA 11, NSight, le HPC SDK, Apache Spark 3.0 qui supporte désormais l'accélération via les GPU, basée sur RAPIDS. NVIDIA a également dévoilé son framework Merlin visant à améliorer les systèmes de recommandation et de personnalisation en exploitant ses puces, Jarvis pour des plateformes conversationnelles moins décevantes.

Le SoC Orin, dévoilé il y a quelques mois a à nouveau été mentionné concernant les évolutions de la plateforme Drive et son extension ADAS. NVIDIA dit aussi multiplier les partenariats autour de véhicules (plus ou moins) autonomes. L'outil d'apprentissage et de gestion Isaac a d'ailleurs été sélectionné par BMW pour les robots de ses usines.

Un nouveau SDK Isaac sera disponible le 26 mai prochain.

  • NVIDIA GTC 2020 Software
  • NVIDIA GTC 2020 Software
  • NVIDIA GTC 2020 Software
  • NVIDIA GTC 2020 Software
  • NVIDIA GTC 2020 Software
  • NVIDIA GTC 2020 Software
  • NVIDIA GTC 2020 Software
  • NVIDIA GTC 2020 Software
  • NVIDIA GTC 2020 Software
  • NVIDIA GTC 2020 Automobile
  • NVIDIA GTC 2020 Automobile
  • NVIDIA GTC 2020 Automobile
  • NVIDIA GTC 2020 Automobile
  • NVIDIA GTC 2020 Automobile
  • NVIDIA GTC 2020 Automobile
  • NVIDIA GTC 2020 Automobile
Ce contenu est désormais en accès libre

Il a été produit grâce à nos abonnés, l'abonnement finance le travail de notre équipe de journalistes.

ou choisissez l'une de nos offres d'abonnement :

8 commentaires
Avatar de stephane.p Abonné
Avatar de stephane.pstephane.p- 14/05/20 à 15:08:06

La vache ! Je n'ai rien compris !!

Avatar de xillibit Abonné
Avatar de xillibitxillibit- 14/05/20 à 17:18:16

Pour résumer Nvidia utilise des EPYC couplés à ses GPU + des puces réseaux mellanox

Édité par xillibit le 14/05/2020 à 17:18
Avatar de David_L Équipe
Avatar de David_LDavid_L- 14/05/20 à 17:53:02

(quote:46965:xillibit) ...

C’est pas un résumé ça :D parce que si tu n’as retenu que ça des annonces il t’en manque un sacré bout (en ne retenant que l’anecdotique :transpi:)

Avatar de DikVin Abonné
Avatar de DikVinDikVin- 14/05/20 à 18:13:24

'' Tarif de départ de la bête : 199 000 dollars. '' :incline:

Dans un premier temps pour un méga gros serveur j'ai trouvé ça acceptable puis je me suis rappelé que les disques ne sont pas compris donc en gros on peut rajouter 50% du prix pour une solution utilisable.

Avatar de David_L Équipe
Avatar de David_LDavid_L- 14/05/20 à 18:19:05

(quote:46971:DikVin) '...

Sinon tu peux regarder le coùt d'un système qui tape dans le PFLOPS et qui peut scaler sans problème pour faire des dizaines/centaines de PFLOPS et analyser ça auregard du TCO sur 5 ans :D

Édité par David_L le 14/05/2020 à 18:19
Avatar de patos Abonné
Avatar de patospatos- 14/05/20 à 20:24:13

(quote:46971:DikVin) '' Tarif de départ de la bête : 199 000 dollars. '' :incline:Dans un premier temps pour un méga gros serveur j'ai trouvé ça acceptable puis je me suis rappelé que les disques ne sont pas compris donc en gros on peut rajouter 50% du prix pour une solution utilisable.

Pour te donner un exemple dans l'utilité de ce genre de solution, je t'invite à lire les articles sur les écuries automobiles (je ne les ai pas retrouvés, désolé). Les mecs expliquaient qu'ils embarquaient bien moins de matos en quantité, que c'était bien plus performant et que ça permettait de faire de la simulation temps réel y compris pendant la course qui se déroulait...

Après ce n'est pas réellement un serveur autosuffisant: c'est une extension de calcul réseau pour aider d'autres serveurs (ou pour monter un youtube du pauvre vu les encodeurs qui doivent être disponibles hihihi)

Avatar de rome1301 Abonné
Avatar de rome1301rome1301- 16/05/20 à 07:17:30

Merci pour cet article de qualité comme toujours ;)

Avatar de Plastivore Abonné
Avatar de PlastivorePlastivore- 19/05/20 à 13:47:40

(quote:46971:DikVin) '' Tarif de départ de la bête : 199 000 dollars. '' :incline:Dans un premier temps pour un méga gros serveur j'ai trouvé ça acceptable puis je me suis rappelé que les disques ne sont pas compris donc en gros on peut rajouter 50% du prix pour une solution utilisable.

C'est normal en datacenter surtout pour des gros serveurs, les disques sont sur un SAN dans une autre baie. Pour un gros serveur Sun, genre Sun Fire 25k ou Enterprise M9000, qui font la taille de 2 baies cul-à-cul, c'était 1M$ de prix de départ, sans les disques. Dans le cas des 25K, par exemple, il y avait 18 System Boards (4 CPU + RAM par board), et autant d'IO boards (sur lesquelles se trouvaient les cartes réseau, Fiber Channel, etc). Le tout hot-swappable (oui, oui, on pouvait retirer des CPU à chaud, tant qu'il y a assez de RAM sur les System Boards restantes). Il y avait juste 2 disques dans chaque System Controller, parce qu'il faut bien un endroit où stocker la config ! Bon, je sais que mes références ne sont pas à jour, mais un serveur Fujitsu M12 (descendant des M9000), ça doit taper dans des tarifs similaires (et encore, je crois que je suis optimiste !).

Donc, en fait, le serveur de nVidia à 200k pièce, il a l'air franchement raisonnable ! Je pense que les réflexions à base de « plus vous en achetez, plus vous économisez », et l'image qui montre qu'un rack de DGX A100 remplace jusqu'à 10 racks (ils ont peut être un peu poussé, mais ils ont raison sur le principe), avec les économies de consommation énergétique (et de climatisation !), sont juste là pour éviter l'effet « WTF? » qu'Apple a causé à la présentation de leur moniteur à 5000$ pendant la keynote de l'année dernière (tarif en réalité très raisonnable d'après les pros, il a juste été présenté à la mauvaise audience - et bon, ça ne retire rien au fait que 1000$ pour la base du moniteur, 200$ pour l'adaptateur VESA et 400$ pour les roulettes du Mac Pro, c'est complètement portnawak).

Il n'est plus possible de commenter cette actualité.

Votre commentaire

Avatar de lecteur anonyme
Avatar de lecteur anonyme

2000 - 2020 INpact MediaGroup - SARL de presse, membre du SPIIL. N° de CPPAP 0321 Z 92244.

Marque déposée. Tous droits réservés. Mentions légales et contact