Instances A2 : Google intègre jusqu'à 16 GPU A100 (Ampere) de NVIDIA

Mais en PCIe 3.0
Instances A2 : Google intègre jusqu'à 16 GPU A100 (Ampere) de NVIDIA

NVIDIA dévoilait il y a quelques semaines sa nouvelles puce pour serveurs, l'A100. Depuis, elle a fait l'objet de nombreuses annonces de la part des partenaires. Google est le premier fournisseur de services Cloud (CSP) à en profiter. Il devrait d'ailleurs miser gros sur ce produit.

Avec Ampere et son A100, NVIDIA a décidé de frapper fort. Non seulement parce que sa puce est un petit monstre gravé en 7 nm, mais également parce que ses fonctionnalités sont spécialement taillées pour des marchés qui ont le vent en poupe, virtualisation du GPU, IA et machine learning, etc. 

De quoi intéresser de nombreux acteurs. Pourtant l'approvisionnement est difficile. « C'est simple, Google a tout réservé », nous confiait récemment un fin analyste du secteur. Une information qui semble aujourd'hui se confirmer, au moins en partie. Car le géant américain vient d'annoncer ses instances A2. 

Des CUDA/Tensor Cores comme s'il en pleuvait

Après avoir vanté les mérites de ce produit à coups de gros chiffres qui en envoient plein les mirettes, Google revient sur la composition de ses nouvelles instances :

Instances Google A2 A100Instances Google A2 A100

Il est ainsi possible de leur attribuer de 1 à 16 GPU. On parle bien ici de la puce dans son ensemble et non de portions virtualisées. En effet, chaque A100 peut être découpée en un maximum de sept GPU virtuels via MIG. Même si ce dernier a été taillé pour les CSP, ce n'est pas utilisé ici. 

Pour rappel, chaque GPU A100 compte pas moins de 54 milliards de transistors (826 mm²) soit 108 SM (Streaming Multiprocessors), pour un total de 6 912 CUDA Cores (FP32, 64 par SM), 432 Tensor Cores, 432 unités de texturing et 40 Mo de cache L2. Le tout à une fréquence maximale de 1,41 GHz.

Cascade Lake plutôt que Rome

Les processeurs (Intel) sont, eux, virtualisés. Ils sont de génération Cascade Lake, de 12 à 96 vCPU sont attribués à chaque instance, sans plus de détails.

Google précise utiliser des baies HGX A100, donc non construites par NVIDIA lui-même (ce seraient alors des DGX). Ce qui explique qu'il ne s'agisse pas de processeurs AMD EPYC de génération Rome (Zen 2) qui avaient été sélectionnés par le constructeur, notamment pour leur connectique PCIe 4.0 (ici absente).

La topologie vNUMA est annoncée comme transparente, permettant d'affiner les performances selon l'organisation attribuée à l'instance. Côté mémoire, on a droit à entre 85 et 1 360 Go, de quoi s'adapter à un certain nombre de besoins. La bande passante réseau varie de 24 à 10 Gb/s selon les instances, le stockage (local) peut atteindre 3 To. Pour rappel, chaque GPU est relié aux autres à travers la connectique NVLink qui annonce 600 Go/s de débit.

Une disponibilité globale pour la fin de l'année

Google précise que ces instances A2 ne sont pour le moment accessibles que via son programme alpha, nécessitant un enregistrement spécifique ou un contact auprès de son équipe commerciale. La disponibilité globale est attendue pour plus tard dans l'année. On découvrira alors les tarifs définitifs.

Compute Engine est le premier service concerné, avec des images spécifiques aux besoins de type Deep Learning. D'autres suivrons comme Google Kubernetes Engine (GKE), Cloud AI Platform, etc. 

  • Introduction
  • Des CUDA/Tensor Cores comme s'il en pleuvait
  • Cascade Lake plutôt que Rome
  • Une disponibilité globale pour la fin de l'année
S'abonner à partir de 3,75 €

2000 - 2021 INpact MediaGroup - SARL de presse, membre du SPIIL. N° de CPPAP 0321 Z 92244.

Marque déposée. Tous droits réservés. Mentions légales et contact