Google affirme que son TPU v4 surpasse le Nvidia A100 - Solutions côtières de Shenzhen Inc.

Par Jaime Hampton

6 avril 2023

Un nouvel article scientifique de Google détaille les performances de sa plate-forme de supercalcul Cloud TPU v4, affirmant qu'elle fournit des performances exascale pour l'apprentissage automatique avec une efficacité accrue.

Les auteurs du document de recherche affirment que le TPU v4 est 1,2 à 1,7 fois plus rapide et utilise 1,3 à 1,9 fois moins d'énergie que le Nvidia A100 dans des systèmes de taille similaire. Le document note que Google n'a pas comparé le TPU v4 aux nouveaux GPU Nvidia H100 en raison de leur disponibilité limitée et de leur architecture 4 nm (par rapport à l'architecture 7 nm de TPU v4).

À mesure que les modèles d'apprentissage automatique sont devenus plus grands et plus complexes, leurs besoins en ressources de calcul ont également augmenté. Les Tensor Processing Units (TPU) de Google sont des accélérateurs matériels spécialisés utilisés pour créer des modèles d'apprentissage automatique, en particulier des réseaux de neurones profonds. Ils sont optimisés pour les opérations de tenseur et peuvent considérablement augmenter l'efficacité de la formation et de l'inférence de modèles ML à grande échelle. Google affirme que les performances, l'évolutivité et la disponibilité font des supercalculateurs TPU les chevaux de bataille de ses grands modèles de langage comme LaMDA, MUM et PaLM.

Le supercalculateur TPU v4 contient 4 096 puces interconnectées via des commutateurs de circuits optiques propriétaires (OCS), qui, selon Google, sont plus rapides, moins chers et utilisent moins d'énergie qu'InfiniBand, une autre technologie d'interconnexion populaire. Google affirme que sa technologie OCS représente moins de 5 % du coût et de la puissance du système TPU v4, déclarant qu'elle reconfigure dynamiquement la topologie d'interconnexion du supercalculateur pour améliorer l'échelle, la disponibilité, l'utilisation, la modularité, le déploiement, la sécurité, la puissance et les performances.

Les ingénieurs et auteurs de Google, Norm Jouppi et David Patterson, ont expliqué dans un article de blog que grâce à des innovations clés dans les technologies d'interconnexion et les accélérateurs spécifiques au domaine (DSA), Google Cloud TPU v4 a permis de multiplier par près de 10 les performances du système ML par rapport à TPU v3. Il a également augmenté l'efficacité énergétique d'environ 2 à 3 fois par rapport aux DSA ML contemporains et réduit le CO2e d'environ 20 fois par rapport aux DSA dans ce que l'entreprise appelle des centres de données sur site typiques.

Le système TPU v4 est opérationnel chez Google depuis 2020. La puce TPU v4 a été dévoilée lors de la conférence des développeurs d'E/S 2021 de l'entreprise. Google affirme que les superordinateurs sont activement utilisés par les principales équipes d'IA pour la recherche et la production de ML à travers les modèles de langage, les systèmes de recommandation et d'autres IA génératives.

En ce qui concerne les systèmes de recommandation, Google affirme que ses superordinateurs TPU sont également les premiers à prendre en charge matériellement les intégrations, un élément clé des modèles de recommandation d'apprentissage en profondeur (DLRM) utilisés dans la publicité, le classement des recherches, YouTube et Google Play. En effet, chaque TPU v4 est équipé de SparseCores, qui sont des processeurs de flux de données qui accélèrent les modèles qui reposent sur des incorporations de 5x à 7x mais n'utilisent que 5 % de la surface et de la puissance de la matrice.

Midjourney, une start-up d'IA text-to-image, a récemment sélectionné TPU v4 pour former la quatrième version de son modèle de génération d'images : "Nous sommes fiers de travailler avec Google Cloud pour offrir une expérience transparente à notre communauté créative alimentée par Google à l'échelle mondiale. infrastructure évolutive », a déclaré David Holz, fondateur et PDG de Midjourney dans un article de blog Google. "De la formation de la quatrième version de notre algorithme sur les derniers TPU v4 avec JAX à l'exécution de l'inférence sur les GPU, nous avons été impressionnés par la vitesse à laquelle le TPU v4 permet à nos utilisateurs de donner vie à leurs idées dynamiques."

Les supercalculateurs TPU v4 sont disponibles pour les chercheurs et les développeurs en IA du cluster ML de Google Cloud dans l'Oklahoma, qui a ouvert l'année dernière. Avec neuf exaflops de performances globales maximales, Google estime que le cluster est le plus grand hub ML accessible au public qui fonctionne avec 90 % d'énergie sans carbone. Consultez le document de recherche TPU v4 ici.