Google et Microsoft organisent une bataille matérielle AI avec Next

Par Agam Shah

20 février 2023

Microsoft et Google sont à l'origine d'un changement informatique majeur en apportant l'IA aux gens via les moteurs de recherche, et une mesure du succès peut se résumer au matériel et à l'infrastructure du centre de données prenant en charge les applications.

La semaine dernière, Microsoft et Google ont annoncé des moteurs de recherche de nouvelle génération alimentés par l'IA, capables de raisonner et de prédire, et de fournir des réponses plus complètes aux questions des utilisateurs. Les moteurs de recherche pourront générer des réponses complètes à des requêtes complexes, tout comme ChatGPT peut fournir des réponses détaillées ou compiler des essais.

Microsoft met l'IA dans Bing pour répondre aux requêtes textuelles, et Google a partagé des plans pour mettre l'IA dans ses outils de recherche de texte, d'image et de vidéo. Les annonces ont été faites deux jours de suite la semaine dernière.

Les entreprises ont reconnu que l'IA dans les moteurs de recherche ne serait pas possible sans une infrastructure matérielle solide. Les entreprises n'ont pas partagé de détails sur le matériel réel qui pilote l'informatique de l'IA.

Pendant des années, Microsoft et Google ont développé du matériel d'IA conçu pour les annonces aux heures de grande écoute, comme les moteurs de recherche d'IA de la semaine dernière.

Les entreprises ont des infrastructures informatiques d'IA très différentes, et la rapidité des réponses et la précision des résultats seront un test décisif pour la viabilité des moteurs de recherche.

Google's Bard est alimenté par ses puces TPU (Tensor Processing Unit) dans son service cloud, ce qui a été confirmé par une source proche des projets de l'entreprise. Microsoft a déclaré que son supercalculateur AI dans Azure – qui fonctionne probablement sur des GPU – peut fournir des résultats de l'ordre de quelques millisecondes, ou à la vitesse de la latence de recherche.

Cela met en place une bataille très publique dans l'informatique IA entre les TPU de Google contre le leader du marché de l'IA, Nvidia, dont les GPU dominent le marché.

« Les équipes travaillaient sur l'alimentation et la construction de machines et de centres de données dans le monde entier. Nous orchestrions et configurions avec soin un ensemble complexe de ressources distribuées. Nous avons construit de nouvelles pièces de plate-forme conçues pour aider à équilibrer la charge, optimiser les performances et évoluer comme jamais auparavant », a déclaré Dena. Saunders, chef de produit pour Bing chez Microsoft, lors de l'événement de lancement.

Microsoft utilise une version plus avancée de ChatGPT d'OpenAI. Lors de l'événement Microsoft, le PDG d'OpenAI, Sam Altman, a estimé qu'il y avait 10 milliards de requêtes de recherche chaque jour.

La route de Microsoft vers Bing avec AI a commencé par s'assurer qu'il avait la capacité de calcul avec son supercalculateur AI, qui, selon la société, fait partie des cinq supercalculateurs les plus rapides au monde. L'ordinateur n'est pas répertorié dans le classement Top500.

"Nous avons fait référence au supercalculateur d'IA, mais ce travail a pris des années et il a fallu beaucoup d'investissements pour construire le type d'échelle, le type de vitesse, le type de coût que nous pouvons apporter à chaque couche de la pile. Je pense que … est assez différenciée, l'échelle à laquelle nous opérons », a déclaré Amy Hood, vice-présidente exécutive et directrice financière de Microsoft, lors d'un appel avec des investisseurs la semaine dernière.

Le coût du calcul pour l'IA au niveau du supercalculateur continuera de baisser au fil du temps à mesure que des échelles d'utilisation et des optimisations seront mises en œuvre, a déclaré Hood.

"Le coût par transaction de recherche a tendance à diminuer avec l'échelle, bien sûr, je pense que nous commençons avec une plate-forme assez robuste pour pouvoir le faire", a déclaré Hood.

Les coûts informatiques augmentent généralement à mesure que davantage de GPU sont mis en œuvre, les coûts de refroidissement et d'autres infrastructures de support s'ajoutant aux factures. Mais les entreprises lient généralement leurs revenus au coût de l'informatique.

Le supercalculateur AI de Microsoft a été construit en partenariat avec OpenAI, et il dispose de 285 000 cœurs de processeur et de 10 000 GPU. Nvidia a signé en novembre un accord pour intégrer des dizaines de milliers de ses GPU A100 et H100 dans l'infrastructure Azure.

La part de recherche Bing de Microsoft n'est pas proche de Google Search, qui détenait une part de marché de 93 % en janvier, selon Statcounter.

L'intelligence artificielle est fondamentalement un style informatique différent fondé sur la capacité de raisonner et de prédire, tandis que l'informatique conventionnelle s'articule autour de calculs logiques. L'IA est réalisée sur du matériel capable d'effectuer une multiplication matricielle, tandis que l'informatique conventionnelle s'est concentrée sur les processeurs, qui excellent dans le traitement en série des données.

Google adopte une approche prudente et publie son IA conversationnelle Bard en tant que version moderne légère de son modèle LaMDA en grand langage. LaMDA de Google est une version maison qui concurrence le GPT-3 d'OpenAI, qui sous-tend l'IA conversationnelle ChatGPT.

"Ce modèle beaucoup plus petit nécessite beaucoup moins de puissance de calcul, ce qui signifie que nous pourrons l'adapter à plus d'utilisateurs et obtenir plus de commentaires", a déclaré Prabhakar Raghavan, vice-président senior de Google en charge de l'activité de recherche, lors de un événement la semaine dernière.

La construction de l'infrastructure pour gérer la recherche par IA est toujours en cours et il y a beaucoup de choses que Microsoft et Google doivent comprendre, a déclaré Bob O'Donnell, analyste principal chez Technalysis Research.

Microsoft se rend compte que l'informatique IA évolue rapidement et est ouvert aux tests et à l'utilisation de nouveaux matériels IA, a déclaré O'Donnell, qui s'est entretenu avec l'équipe d'infrastructure de Microsoft lors de l'événement de lancement de Bing AI la semaine dernière.

"Ils ont également précisé que" nous essayons tout, car cela change tout le temps. Et même les choses que nous faisons maintenant vont changer avec le temps - il y aura des différences sur la route "", a déclaré O'Donnell.

Il est plus important pour Microsoft d'avoir une plate-forme informatique plus flexible "que nécessairement 5% plus rapide sur une tâche donnée", a déclaré O'Donnell.

"Ils ont admis que" regardez, nous allons apprendre beaucoup au cours des 30 prochains jours à mesure que les gens commenceront à l'utiliser et nous commencerons à voir à quoi ressemblent vraiment les charges ". C'est vraiment une chose dynamique, en mouvement", a déclaré O'Donnell.

Par exemple, Microsoft peut connaître les heures de pointe lorsque les utilisateurs accèdent aux serveurs avec leurs requêtes de recherche. Pendant les périodes de faible utilisation, Microsoft pourrait passer de la partie inférence, qui est ce qui crache les résultats, à la partie formation, qui nécessite plus de calcul GPU, a déclaré O'Donnell.

Les TPU de Google, introduits en 2016, ont été un élément clé de la stratégie d'IA de l'entreprise. Les TPU ont propulsé AlphaGo, le système qui a battu le champion de Go Lee Sedol en 2016. Le LaMDA LLM de la société a été développé pour fonctionner sur des TPU. L'organisation sœur de Google, DeepMind, utilise également des TPU pour ses recherches sur l'IA.

La puce de Google "présente des avantages d'infrastructure significatifs en utilisant les pods TPUv4 internes par rapport à Microsoft/OpenAI utilisant les HGX A100 basés sur Nvidia" dans une implémentation d'IA brute avec des optimisations minimales, a déclaré le fondateur de SemiAnalysis, Dylan Patel, dans une newsletter qui présente les milliards de dollars qu'il en coûtera à Google pour insérer des modèles de grande langue dans ses offres de recherche.

Au fil du temps, les coûts diminueront à mesure que les échelles matérielles et les modèles seront optimisés pour le matériel, a écrit Patel.

Facebook construit maintenant des centres de données avec la capacité de plus de calcul d'IA. Les clusters Facebook auront des milliers d'accélérateurs, qui incluent des GPU, et fonctionneront dans une enveloppe de puissance de huit à 64 mégawatts. Les technologies d'intelligence artificielle sont utilisées pour supprimer le contenu répréhensible, et les clusters informatiques piloteront l'avenir du métaverse de l'entreprise. La société construit également un supercalculateur de recherche sur l'IA avec 16 000 GPU.

En règle générale, les centres de données sont désormais conçus pour des charges de travail ciblées, qui concernent de plus en plus des applications d'intelligence artificielle et comportent davantage de contenu GPU et CPU, a déclaré Dean McCarron, analyste principal chez Mercury Research.

Les fournisseurs de cloud passent par de longs cycles d'évaluation pour sélectionner les meilleurs processeurs, GPU et autres composants. Le coût total de possession est une autre considération.

"L'un des autres problèmes ici est de savoir dans quelle mesure est-il flexible? Parce que certains acheteurs peuvent ne pas vouloir se consacrer ou s'engager trop sur une charge de travail particulière, sans savoir si elle sera là à l'avenir", a déclaré McCarron.

Les centres de données qui prennent en charge de préférence les charges de travail d'IA verront un peu plus d'adoption pour les GPU et les processeurs d'Intel, Nvidia et AMD. Certains peuvent choisir des accélérateurs alternatifs pour les charges de travail d'IA, mais ils peuvent coexister avec des GPU et des CPU.

"Vous aurez toujours besoin de GPU plus rapides. Dans dix ans, dans un centre de données, y aura-t-il des processeurs ? Oui. Y aura-t-il des GPU ? Oui, également", a déclaré McCarron.

Image d'en-tête créée à l'aide de DALL·E 2 d'OpenAI.