Google est-il propriétaire du centre de données
Résumé:
– Google a construit son propre matériel et logiciel réseau pour le réseau de données.
– Leur génération actuelle, Jupiter Tabrics, peut livrer plus de 1 Petabit / Sec de bande passante de bissection totale.
– Google utilise une topologie CLOR, une pile de contrôle logiciel centralisée et des protocoles personnalisés pour concevoir leurs réseaux de données.
– Ils déploient et bénéficient des avantages de la mise en réseau définie par logiciel (SDN) depuis une décennie.
– Les réseaux de centres de données de Google sont conçus pour la vitesse, la modularité et la disponibilité et sont des infrastructures partagées.
– Andromeda est la dernière pile de réseautage de Google Cloud Platform, basée sur le réseautage défini par les logiciels (SDN).
– Google construit un nouveau centre de données au Nebraska dans le cadre de ses 9 $.5 milliards d’investissement dans les centres de données et les bureaux.
Questions uniques:
1. Comment Google a-t-il construit son infrastructure de réseautage de données?
Google a construit son propre matériel et logiciel réseau pour connecter tous les serveurs de leurs centres de données, alimentant leurs systèmes informatiques et de stockage distribués. Ils font ça depuis une décennie.
2. Quelle est la capacité du réseau de données de génération actuel de Google?
La génération actuelle, appelée Jupiter Fabrics, peut livrer plus de 1 Petabit / Sec de bande passante de bissection totale. Cette capacité est suffisante pour que 100 000 serveurs échangent des informations à 10 Go / s chacun.
3. Comment Google conçoit-il ses réseaux de données?
Google utilise une topologie clos, qui consiste à organiser leur réseau autour d’une collection de commutateurs plus petits pour fournir les propriétés d’un commutateur logique beaucoup plus grand. Ils utilisent également une pile de contrôle de logiciel centralisé pour gérer des milliers de commutateurs dans le centre de données, ce qui les fait agir comme un grand tissu. De plus, ils créent leurs propres logiciels et matériels à l’aide de protocoles personnalisés adaptés au centre de données.
4. Depuis combien de temps Google a-t-il déploié et bénéficiant des avantages du réseautage défini par les logiciels (SDN)?
Google déploie et profite des avantages de SDN depuis une décennie. Ils ont utilisé SDN pour alimenter leur centre de données WAN, B4, et leur pile de virtualisation du réseau SDN, Andromeda.
5. Quelles sont les principales fonctionnalités des réseaux de données de Google?
Les réseaux de données de Google offrent une vitesse, une modularité et une disponibilité sans précédent. Ils sont constamment mis à niveau pour répondre aux demandes de bande passante de leur dernière génération de serveurs. Ces réseaux sont également une infrastructure partagée, alimentant à la fois l’infrastructure et les services internes de Google, ainsi que Google Cloud Platform.
6. Qu’est-ce qu’Andromeda et comment cela se rapporte-t-il à Google Cloud Platform?
Andromeda est un substrat basé sur le réseautage défini par logiciel (SDN) pour les efforts de virtualisation du réseau de Google. C’est le point d’orchestration pour l’approvisionnement, la configuration et la gestion des réseaux virtuels et un traitement de paquets en réseau dans Google Cloud Platform.
7. Quel est le plan d’investissement de Google pour les centres de données et les bureaux?
Google prévoit d’investir 9 $.5 milliards de centres de données et de bureaux, et dans le cadre de ce plan, ils construisent un nouveau centre de données au Nebraska.
8. Pourquoi Google construit-il son propre matériel et logiciel réseau pour le réseau de données?
Google a commencé à créer leur propre matériel et logiciel réseau car il n’y avait pas de solutions existantes qui pouvaient répondre à leurs exigences informatiques distribuées. Ils ont continué à le faire pour assurer une grande infrastructure informatique pour leurs centres de données.
9. Quels sont les principes que Google a utilisés pour concevoir leurs réseaux de données?
Google a utilisé trois principes clés dans la conception de leurs réseaux de données: organiser le réseau autour d’une topologie proche, à l’aide d’une pile de contrôle de logiciel centralisé et construire son propre logiciel et matériel à l’aide de protocoles personnalisés adaptés au centre de données.
dix. Pourquoi les réseaux de données de Google sont-ils considérés comme une infrastructure partagée?
Les réseaux de données de Google alimentent leur infrastructure et services internes, ainsi que Google Cloud Platform. Cela signifie que les mêmes réseaux sont accessibles aux développeurs du monde.
11. Comment Google assure-t-il la disponibilité de leurs réseaux de données?
L’équipe des opérations de Google a déployé et redéployé plusieurs générations de leur réseau dans leur infrastructure pour répondre aux besoins de bande passante de leurs systèmes distribués. Ils travaillent en étroite collaboration avec la meilleure équipe d’ingénierie et d’opérations du réseau au monde pour assurer la disponibilité de leurs réseaux.
12. Quel est le but d’Andromeda dans Google Cloud Platform?
Andromeda sert de point d’orchestration pour l’approvisionnement, la configuration et la gestion des réseaux virtuels et un traitement de paquets en réseau dans Google Cloud Platform. C’est un élément clé des capacités de réseautage de la plate-forme.
13. Comment l’infrastructure de réseautage Datacenter de Google utilise-t-elle le réseau défini par les logiciels (SDN)?
Google déploie SDN dans leur infrastructure de réseautage de données depuis une décennie. Ils ont utilisé SDN pour alimenter leur centre de données WAN, B4, ainsi que leur pile de virtualisation de réseau, Andromeda. Ils ont adopté les idées architecturales de SDN dans leurs systèmes de réseautage.
14. Quelle est l’importance de l’investissement de Google dans les centres de données et les bureaux?
L’investissement de Google de 9 $.5 milliards de centres de données et de bureaux reflètent leur engagement à étendre leur infrastructure et leurs capacités. Cela démontre leur confiance dans la croissance de leurs services et la demande croissante de Google Cloud.
15. Comment l’infrastructure de réseautage Datacenter de Google contribue-t-elle à Google Cloud Platform?
L’infrastructure de réseautage de données de Google est une infrastructure partagée qui alimente l’infrastructure et les services internes de Google, ainsi que Google Cloud Platform. Cela permet aux développeurs du monde entier de tirer parti de l’infrastructure réseau de classe mondiale sans avoir à la construire elles-mêmes, leur permettant de créer des services et des plateformes Internet innovants.
Google dévoile un nouveau centre de données de 750 millions de dollars dans le cadre de 9 $.Objectif 5b
L’apprentissage automatique fait partie intégrante du traitement des mégadonnées. Comme Ryan Den Rooijen, Global Capacities Lead, Insights & Innovation, l’a dit avant le sommet de l’innovation de Big Data à Londres (mars 2017), “La plupart des problèmes que j’ai observés concernent la façon de rendre ces données utiles… pour générer un impact commercial significatif.” Par conséquent, en plus d’utiliser l’apprentissage automatique pour des produits comme Google Translate, Google utilise également ses réseaux de neurones pour prédire le PUE de ses centres de données.
Google est-il propriétaire du centre de données
Infrastructure VP & GM, Systèmes et services
Google est depuis longtemps un pionnier de l’informatique distribuée et du traitement des données, du système de fichiers Google à MapReduce à BigTable et à Borg. Dès le début, nous’Je sais qu’une grande infrastructure informatique comme celle-ci nécessite une grande technologie de réseautage de données. Mais lorsque Google commençait, personne n’a fait un réseau de données qui pourrait répondre à nos exigences informatiques distribuées.
Ainsi, au cours de la dernière décennie, nous avons construit notre propre matériel et logiciel réseau pour connecter tous les serveurs de nos centres de données, alimentant nos systèmes informatiques et de stockage distribués. Maintenant, nous avons ouvert cette infrastructure puissante et transformatrice à utiliser par des développeurs externes via Google Cloud Platform.
Lors du Sommet Open Network 2015, nous avons révélé pour la première fois les détails de cinq générations de notre technologie de réseau interne. De Firehose, notre premier réseau de données interne, il y a dix ans à notre réseau Jupiter de dernière génération, nous’VE a augmenté la capacité d’un seul réseau de données de plus de 100x. Notre génération actuelle – Jupiter Fabrics – peut livrer plus d’un pétabit / sec de bande passante de bissection totale. Pour mettre cela en perspective, une telle capacité serait suffisante pour que 100 000 serveurs échangent des informations à 10 Go / s chacun, suffisamment pour lire l’intégralité du contenu numérisé de la Bibliothèque du Congrès en moins de 1 / 10e de seconde.
Nous avons utilisé trois principes clés dans la conception de nos réseaux de données:
- Nous organisons notre réseau autour d’une topologie clos, une configuration de réseau où une collection de commutateurs plus petits (moins chers) est organisé pour fournir les propriétés d’un commutateur logique beaucoup plus grand.
- Nous utilisons une pile de contrôle logiciel centralisé pour gérer des milliers de commutateurs dans le centre de données, ce qui les rend efficacement comme un grand tissu.
- Nous construisons nos propres logiciels et matériels à l’aide de silicium à partir de fournisseurs, en nous appuyant moins sur les protocoles Internet standard et plus sur les protocoles personnalisés adaptés au centre de données.
Dans l’ensemble, notre pile de contrôle de réseau a plus en commun avec Google’S Architectures informatiques distribuées que les protocoles Internet traditionnels centrés sur le routeur. Certains pourraient même dire que nous’Ve déploie et profite des avantages du réseautage défini par les logiciels (SDN) sur Google depuis une décennie. Il y a quelques années, nous avons révélé comment SDN a alimenté Google’S Datacenter Wan, B4, l’un du monde’s plus gros wans. L’année dernière, nous avons montré les détails de GCP’SDN SDN Network Virtualization Stack, Andromeda. En fait, les idées architecturales pour ces deux systèmes proviennent de nos premiers travaux dans le réseau de données.
Construire de grands réseaux de centres de données ne consiste pas seulement à créer un excellent matériel et logiciel. Il’s sur le partenariat avec le monde’S MEILLEUR Équipe d’ingénierie et d’opérations du réseau dès le premier jour. Notre approche de la mise en réseau change fondamentalement l’organisation du réseau’S Données, contrôle et avions de gestion. Un tel changement fondamental ne se produit pas sans certaines bosses, mais notre équipe d’opérations a plus que relevé le défi. Nous’VE a déployé et redéployé plusieurs générations de notre réseau dans notre infrastructure à l’échelle planétaire pour répondre aux besoins de bande passante de nos systèmes distribués.
En rassemblant tout cela, nos réseaux de données offrent une vitesse sans précédent à l’échelle des bâtiments entiers. Ils sont construits pour la modularité, constamment mis à niveau pour répondre aux demandes de bande passante insatiables de la dernière génération de nos serveurs. Ils sont gérés pour la disponibilité, répondant aux exigences de disponibilité de certains des services et clients Internet les plus exigeants. Plus important encore, nos réseaux de données sont des infrastructures partagées. Cela signifie que les mêmes réseaux qui alimentent tous Google’S Infrastructure et services internes alimentent également Google Cloud Platform. Nous sommes très ravis d’ouvrir cette capacité aux développeurs du monde.
Google Cloud
Entrez la zone Andromeda: la dernière pile de réseautage de Google Cloud Platform
Andromeda est un substrat basé sur le réseautage défini par logiciel (SDN) pour nos efforts de virtualisation du réseau. C’est le point d’orchestration pour l’approvisionnement, la configuration et la gestion des réseaux virtuels et du traitement des paquets en réseau.
Par Amin Vahdat • Liad de 3 minutes
- Google Cloud
- Infrastructure
- Systèmes
Google dévoile un nouveau centre de données de 750 millions de dollars dans le cadre de 9 $.Objectif 5b
Alors que la demande de Google Cloud s’envole, Google construit un nouveau centre de données au Nebraska dans le cadre de sa stratégie pour investir 9 $.5 milliards de centres de données et de bureaux en 2022.
Google tient sa promesse de dépenser 9 $.5 milliards sur les nouveaux centres de données et bureaux Google en 2022 avec le dévoilement d’un nouveau centre de données de 750 millions de dollars au Nebraska.
Le nouveau campus Google massif à Omaha, Neb., se composera de quatre bâtiments totalisant plus de 1.4 millions de pieds carrés à mesure que la demande de services et d’infrastructures de Google Cloud augmente. Dans Google Cloud’s quatrième trimestre récent, la société a déclaré une croissance des ventes de 45% d’une année sur l’autre à 5 $.5 milliards.
“[Le nouveau centre de données] apportera plus d’occasions à la communauté locale et plus de ressources pour que nos clients développent leurs entreprises et utilisent les services numériques,” a déclaré Stacy Trackey Meagher, directeur général de Google Cloud’S de la région centrale, dans un communiqué.
Le nouveau Google Data Center du Nebraska fait partie de la View Mountain, en Californie.-Recherche basée sur le géant et le cloud’S Planifiez d’investir un total de 9 $.5 milliards de centres de données et u.S.-Basé bureaux d’ici la fin de 2022.
Google est l’un des plus grands dépenses pour construire de nouveaux centres de données à travers le monde, selon Synergy Research Group, investir des milliards chaque année pour construire et équiper des centres de données hyperscale pour répondre à ses demandes croissantes des clients cloud. Google, Amazon Web Services et Microsoft ont les empreintes de centre de données les plus larges au monde, chaque hébergement au moins 60 emplacements de centre de données ou plus.
Les centres de données sont le “ancres vitales” Aux clients et communautés locales, a déclaré le PDG de Google Sundar Pichai dans un article de blog ce mois-ci.
“Nos investissements dans les centres de données continueront d’alimenter les outils et services numériques qui aident les personnes et les entreprises à prospérer,” dit google’s pichai.
Google’S Plans d’extension du centre de données
En plus du nouveau centre de données du Nebraska, Google prévoit de dépenser des milliards cette année dans des centres de données en Géorgie, Iowa, Oklahoma, Nevada, Tennessee, Virginie et Texas.
“Dans le u.S. Au cours des cinq dernières années, nous’VE a investi plus de 37 milliards de dollars dans nos bureaux et centres de données dans 26 États, créant plus de 40 000 emplois à temps plein. Ce’s en plus des plus de 40 milliards de dollars de recherche et de développement, nous avons investi dans le U.S. en 2020 et 2021,” dit Pichai.
Les centres de données permettent à Google Cloud Services and Infrastructure, y compris son offre phare de la plate-forme Google Cloud (GCP).
En 2021, le GCP a enregistré une croissance de plus de 80% du volume total des transactions par rapport à 2020, et plus de 65% de croissance du nombre de transactions dépassant 1 milliard de dollars.
Dans l’ensemble, Google Cloud a désormais un taux d’exécution des revenus annualisé de 22 $.16 milliards.
FAQ du centre de données Google Partie 3
Comment Google décide-t-il où construire ses centres de données?
Google choisit les emplacements de ses centres de données en fonction d’une combinaison de facteurs qui incluent l’emplacement des clients, la main-d’œuvre disponible, la proximité de l’infrastructure de transmission, les rabais d’impôts, les taux de services publics et d’autres facteurs connexes. Son objectif récent sur l’élargissement de son infrastructure cloud a ajouté plus de considérations, telles que la demande des clients du cloud d’entreprise pour certains emplacements et la proximité des centres de population à haute densité.
Le choix de ST. Ghislain, Belgique pour un centre de données (qui a ouvert ses portes en 2010) était basé sur la combinaison des infrastructures énergétiques, des terres de développement, un fort soutien local pour les emplois de haute technologie et la présence d’un groupe technologique d’entreprises qui soutient activement l’éducation technologique dans les écoles et universités voisines.
Un climat commercial positif est un autre facteur. Cela, associé aux terres et à l’énergie disponibles, a rendu l’Oklahoma particulièrement attrayant, selon Google’S Directeur des opérations principales lorsque le site de Pryor Creek a été annoncé. Dans l’Oregon, l’environnement commercial positif signifie se trouver dans un État qui n’a pas de taxe de vente. Les commissaires locaux du comté de Wasco ont également exonéré Google pour la plupart de ses impôts fonciers tout en l’obligeant à effectuer un paiement unique de 1 $.7 aux gouvernements locaux et aux paiements de moins d’un million de dollars chaque année après.
La proximité des sources d’énergie renouvelables devient de plus en plus importante. Google est stratégiquement investi dans les ressources renouvelables et considère son empreinte environnementale lorsqu’il est d’assigner de nouveaux centres de données.
Les centres de données Google utilisent-ils les énergies renouvelables?
Google achète plus d’énergie renouvelable que n’importe quelle entreprise du monde. It 2016 Il a acheté suffisamment d’énergie pour rendre compte de plus de la moitié de sa consommation d’énergie. En 2017, la société prévoit de compenser complètement toute sa consommation d’énergie avec des énergies renouvelables à 100%. Pour ce faire, Google a signé 20 accords d’achat pour 2.6 gigawatts (GW) d’énergie renouvelable. Cela signifie que, bien que les énergies renouvelables ne soient pas disponibles partout ou en quantités dont Google a besoin, Google achète la même quantité d’énergie renouvelable qu’elle consomme.
Google a également engagé 2 $.5 milliards de fonds de capitaux propres pour développer une énergie solaire et éolienne qui peut être ajoutée au réseau électrique à travers le monde. Cette volonté de financer des projets renouvelables est dans le but d’élargir progressivement le marché des énergies renouvelables en termes de disponible, ainsi qu’en modifiant la façon dont les énergies renouvelables peuvent être achetées. Dans le processus, l’utilisation de sources renouvelables devient plus facile et plus rentable pour tout le monde.
Vue du Google Data Center à Hamina, en Finlande, avec une éolienne à côté
La durabilité est également un objectif dans les centres de données. Le st. Ghislain, Belgique, les centres de données étaient Google’S le premier à compter entièrement sur le refroidissement gratuit. Et, cette installation’L’usine de purification de l’eau sur site S permet aux centres de données de recycler l’eau d’un canal industriel plutôt que de taper la région’S Approvisionnement en eau frais.
Combien d’énergie utilisent les centres de données Google?
La consommation d’énergie du centre de données représente un morceau de taille du 5.7 Terawatt Hours Sa société mère, Alphabet, utilisée en 2015. Avec un pue moyen de 1.12 (contre la moyenne de l’industrie de 1.7), Google dit que ses centres de données utilisent la moitié de l’énergie d’un centre de données typique. Une partie croissante de ceci est renouvelable, fournie par des accords d’achat d’électricité.
Quel type de matériel et de logiciels Google utilise-t-il dans ses centres de données?
Il’S pas de secret que Google a construit sa propre infrastructure Internet depuis 2004 à partir de composants de marchandises, ce qui entraîne des centres de données définies par un logiciel. La conception de maillage hiérarchique résultante est standard dans tous ses centres de données.
Le matériel est dominé par les serveurs personnalisés conçus par Google et Jupiter, le Switch Google introduit en 2012. Avec ses économies d’échelle, Google se contracte directement avec les fabricants pour obtenir les meilleures offres.
Yevgeniy Sverdlik
Google’S Jupiter Networking change affiché sur Google Cloud Next 2017 à San Francisco
Google’Les serveurs S et le logiciel de réseautage exécutent une version durcie du système d’exploitation open source Linux. Des programmes individuels ont été écrits en interne. Ils incluent, au mieux de notre connaissance:
- Google Web Server (GWS) – Serveur Web personnalisé basé sur Linux que Google utilise pour ses services en ligne.
- Systèmes de stockage:
- Colossus – le système de fichiers au niveau du cluster qui a remplacé le système de fichiers Google
- Cafeine – Un système d’indexation continu lancé en 2010 pour remplacer Teragoogle
- Hummingbird – Algorithme d’index de recherche majeure introduit en 2013.
Google a également développé plusieurs abstractions qu’il utilise pour stocker la plupart de ses données:
- Tampons de protocole – Une manière extensible de sérialisation des données structurées non neutres, neutres, neutres et neutres, de sérialisation des données de communication, de stockage de données, etc
- SSTABLE (Trired Strings Table) – Une carte persistante, ordonnée et immuable des clés aux valeurs, où les clés et les valeurs sont des chaînes d’octets arbitraires. Il est également utilisé comme l’un des éléments constitutifs de BigTable
- RECORDIO – Un fichier définissant les interfaces IO compatibles avec Google’Spécifications S IO
Comment Google utilise-t-il l’apprentissage automatique dans ses centres de données?
L’apprentissage automatique fait partie intégrante du traitement des mégadonnées. Comme Ryan Den Rooijen, Global Capacities Lead, Insights & Innovation, l’a dit avant le sommet de l’innovation de Big Data à Londres (mars 2017), “La plupart des problèmes que j’ai observés concernent la façon de rendre ces données utiles… pour générer un impact commercial significatif.” Par conséquent, en plus d’utiliser l’apprentissage automatique pour des produits comme Google Translate, Google utilise également ses réseaux de neurones pour prédire le PUE de ses centres de données.
Google calcule Pue toutes les 30 secondes et le suit en continu, la température externe de l’air et les niveaux d’équipement mécanique et de refroidissement. Ces données permettent aux ingénieurs de Google de développer un modèle prédictif qui analyse les interactions complexes de nombreuses variables pour découvrir des modèles qui peuvent être utilisés pour aider à améliorer la gestion de l’énergie. Par exemple, lorsque Google a pris des serveurs hors ligne pendant quelques jours, les ingénieurs ont utilisé ce modèle pour ajuster le refroidissement pour maintenir l’efficacité énergétique et économiser de l’argent. Le modèle est 99.6% précis.
En juillet 2016, Google a annoncé les résultats d’un test d’un système d’IA par son acquisition britannique Deepmind. Ce système avait réduit la consommation d’énergie de ses unités de refroidissement du centre de données jusqu’à 40% et le PUE global de 15%. Le système prédit les températures une heure à l’avance, permettant à l’ajustement de refroidissement en prévision.
Google loue-t-il l’espace dans d’autres sociétés’ Centres de données?
Oui. Google loue l’espace des autres quand cela a du sens. Tous les Data Center Google n’ont pas son nom à la porte. Au lieu de cela, l’entreprise utilise une variété de stratégies pour répondre à ses besoins de centre de données. Il loue un espace pour les sites de mise en cache, par exemple, et utilise une stratégie de construction et de location mixte pour son déploiement du centre de données cloud mondial.
Google est-il propriétaire du centre de données
Amin Vahdat
Infrastructure VP & GM, Systèmes et services
Les réseaux de centres de données constituent la base de l’échelle de l’entrepôt moderne et du cloud computing. La garantie sous-jacente de communication uniforme et arbitraire entre des dizaines de milliers de serveurs à 100 s de GB / s de bande passante avec la latence inférieure à 100, a transformé l’informatique et le stockage. Le principal avantage de ce modèle est simple mais profond: l’ajout d’un serveur incrémental ou d’un dispositif de stockage à un service de niveau supérieur offre une augmentation proportionnelle de la capacité et de la capacité de service. Chez Google, notre technologie Jupiter Data Center Network prend en charge ce type de capacité d’échelle pour les services fondamentaux pour nos utilisateurs, tels que la recherche, YouTube, Gmail et les services cloud, tels que l’IA et l’apprentissage automatique, le moteur de calcul, l’analyse BigQuery, les bases de données Spanner et plus encore.
Nous avons passé les huit dernières années à intégrer profondément la commutation du circuit optique (OCS) et le multiplexage de la division des vagues (WDM) dans Jupiter. Alors que des décennies de sagesse conventionnelle ont suggéré que cela n’était pas pratique, la combinaison de l’OCS avec notre architecture de mise en réseau définie par logiciel (SDN) a permis de nouvelles capacités: prise en charge des builds de réseau incrémentiels avec des technologies hétérogènes; des performances plus élevées et une latence, un coût et une consommation d’énergie plus élevés; Priorité d’application en temps réel et modèles de communication; et les mises à niveau du temps à bas. Jupiter fait tout cela tout en réduisant l’achèvement du débit de 10%, en améliorant le débit de 30%, en utilisant 40% de puissance en moins, engageant 30% de coût en moins et en fournissant 50 fois les temps d’arrêt moins que les alternatives les plus connues. Vous pouvez en savoir plus sur la façon dont nous avons fait cela dans le document que nous avons présenté à Sigcomm 2022 aujourd’hui, Jupiter évoluant: transformer le réseau de données de Google via des commutateurs de circuit optique et une mise en réseau définie par logiciel.
Voici un aperçu de ce projet.
Réseaux de centre de données Jupiter évolutif
En 2015, nous avons montré comment nos réseaux de centres de données Jupiter se sont mis à plus de 30 000 serveurs avec une connectivité uniforme de 40 Go / s par serveur, prenant en charge plus de 1PB / sec de bande passante globale. Aujourd’hui, Jupiter prend en charge plus de 6pb / sec de la bande passante de Datacenter. Nous avons livré ce niveau de performance et d’échelle jamais vu auparavant en tirant parti de trois idées:
- Réseautage défini par logiciel (SDN) – Un plan de contrôle logiquement centralisé et hiérarchique pour programmer et gérer les milliers de puces de commutation dans le réseau de centres de données.
- Topologie – Une topologie de commutation à plusieurs étages non bloquante, construite à partir de puces de commutation Radix plus petites, qui peuvent évoluer vers des réseaux arbitrairement grands.
- Silicion de commutateur marchand – Composants de commutation Ethernet à usage général rentable et à usage général pour un réseau de stockage et de données convergé.
En s’appuyant sur ces trois piliers, Jupiter’L’approche architecturale a soutenu un changement de mer dans l’architecture de systèmes distribués et définir la voie de la façon dont l’industrie dans son ensemble construit et gère les réseaux de centres de données.
Cependant, deux défis principaux pour les centres de données hyperscale sont restés. Premièrement, les réseaux de centres de données doivent être déployés à l’échelle d’un bâtiment entier – peut-être 40 MW ou plus d’infrastructures. De plus, les serveurs et les périphériques de stockage déployés dans le bâtiment évoluent toujours, par exemple passer de 40 Go / s à 100 Go / s à 200 Go / s et aujourd’hui 400 Go / s du réseau natif interconnexion. Par conséquent, le réseau de centres de données doit évoluer dynamiquement pour suivre le rythme des nouveaux éléments qui s’y connectent.
Malheureusement, comme illustré ci-dessous, les topologies CLOS nécessitent une couche de colonne vertébrale avec un support uniforme pour les appareils les plus rapides qui pourraient s’y connecter. Le déploiement d’un réseau de centres de données à l’échelle à l’échelle du bâtiment signifiait pré-déploier une très grande couche de colonne vertébrale qui fonctionnait à une vitesse fixe de la dernière génération de la journée. C’est parce que les topologies étroites nécessitent intrinsèquement tout pour tous Fanout des blocs d’agrégation 1 à la colonne vertébrale; L’ajout à la colonne vertébrale nécessiterait de recâbler l’ensemble du centre de données. Une façon de prendre en charge de nouveaux appareils fonctionnant à des taux de ligne plus rapides serait de remplacer toute la couche de colonne vertébrale pour soutenir la vitesse plus récente, mais cela ne serait pas pratique étant donné des centaines de racks individuels abritant les commutateurs et des dizaines de milliers de paires de fibres traversant le bâtiment.
figue. Un nouveau bloc d’agrégation (vert) avec une vitesse de port de 200 Go / s est connecté à 3 anciens blocs de colonne vertébrale (bleu) avec une vitesse de port de 100 Go / s et un nouveau bloc de colonne vertébrale (vert) avec une vitesse de port de 200 Go / s. Dans ce modèle, seulement 25% des liens du nouveau bloc d’agrégation et du nouveau bloc de colonne vertébrale fonctionnent à 200 Go / s.
Idéalement, le réseau de centres de données prendrait en charge les éléments de réseau hétérogène dans un “payer à mesure que vous grandissez” modèle, ajoutant des éléments de réseau uniquement en cas de besoin et soutenant la dernière génération de technologie progressivement. Le réseau prendrait en charge le même modèle d’échelle idéalisé qu’il permet pour les serveurs et le stockage, permettant l’ajout incrémentiel de la capacité du réseau – même si une technologie différente de celle précédemment déployée – pour fournir une augmentation de la capacité proportionnelle et l’interopérabilité native pour l’ensemble du bâtiment des appareils.
Deuxièmement, bien que la bande passante uniforme à l’échelle du bâtiment soit une force, elle devient limite si l’on considère que les réseaux de centres de données sont intrinsèquement multi-locataires et soumis en permanence à des échecs de maintenance et localisés. Un réseau de centres de données unique héberge des centaines de services individuels avec différents niveaux de priorité et de sensibilité à la bande passante et à la variation de latence. Par exemple, le service des résultats de recherche Web en temps réel peut nécessiter des garanties de latence en temps réel et une allocation de bande passante, tandis qu’un travail d’analyse par lots de plusieurs heures peut avoir des exigences de bande passante plus flexibles pendant de courtes périodes. Compte tenu de cela, le réseau de centres de données devrait allouer la bande passante et le traitement des services basés sur des modèles de communication en temps réel et une optimisation consciente de l’application du réseau. Idéalement, si 10% de la capacité du réseau doit être temporairement supprimée pour une mise à niveau, alors 10% ne devraient pas être répartis uniformément sur tous les locataires, mais réparties en fonction des exigences de l’application individuelles et priorité.
Relever ces défis restants semblait impossible au début. Les réseaux de centres de données ont été construits autour de topologies hiérarchiques à l’échelle physique massive de telle sorte que le support de l’hétérogénéité incrémentale et de l’adaptation dynamique des applications ne pouvait pas être incorporée dans la conception. Nous avons cassé cette impasse en développant et en introduisant Commutation de circuit optique (OCS) dans l’architecture Jupiter. Un interrupteur de circuit optique (illustré ci-dessous) mappe un port d’entrée de fibre optique sur un port de sortie dynamiquement à travers deux ensembles de systèmes micro-électromécaniques (MEMS) qui peuvent être tournés en deux dimensions pour créer des mappages de port à port arbitraires.
figue. Le fonctionnement d’un seul périphérique OCS mappant n entrée sur n fibres de sortie via des miroirs MEMS.
Nous avions un aperçu que nous pouvions créer des topologies logiques arbitraires pour les réseaux de centres de données en introduisant une couche d’intermédiation OCS entre les commutateurs de paquets de centres de données comme indiqué ci-dessous.
figue. Les blocs d’agrégation sont connectés physiquement via les fibres aux commutateurs OCS. Une topologie logique peut être réalisée en configurant chaque commutateur OCS pour connecter une permutation d’entrée aux fibres de sortie.
Cela nous a obligé à construire des OCS et des émetteurs-récepteurs WDM natifs avec des niveaux d’échelle, de fabrication, de programmabilité et de fiabilité jamais réalisés auparavant. Alors que la recherche universitaire a étudié les avantages des commutateurs optiques, la sagesse conventionnelle a suggéré que la technologie OCS n’était pas commercialement viable. Sur plusieurs années, nous avons conçu et construit Apollo OCS qui constitue désormais la base de la grande majorité de nos réseaux de centres de données.
Un avantage saillant de l’OCS est qu’aucun routage de paquets ou analyse d’en-tête n’est impliqué dans son opération. OCS reflète simplement la lumière d’un port d’entrée vers un port de sortie avec une précision incroyable et peu de perte. La lumière est générée par conversion électro-optique chez les émetteurs-récepteurs WDM déjà requis pour transmettre des données de manière fiable et efficace dans les bâtiments du centre de données. Par conséquent, OCS fait partie du Infrastructure de construction, est le débit de données et la longueur d’onde agnostique, et ne nécessite pas de mises à niveau même si l’infrastructure électrique passe de la transmission et des taux de codage de 40 Go / s à 100 Go / s à 200 Go / s – et au-delà.
Avec une couche OCS, nous avons éliminé la couche de la colonne vertébrale de nos réseaux de centres de données, connectant plutôt les blocs d’agrégation hétérogènes dans un maillage direct, pour la première fois au-delà des topologies claires dans le centre de données. Nous avons créé des topologies logiques dynamiques qui reflètent à la fois la capacité physique et les modèles de communication d’application. La reconfiguration de la connectivité logique observée par les commutateurs de notre réseau est désormais une procédure opérationnelle standard, évoluant dynamiquement de la topologie d’un modèle à un autre sans impact visible d’application. Nous l’avons fait en coordonnant les drains de liens avec les logiciels de routage et la reconfiguration OCS, en nous appuyant sur notre plan de contrôle de réseautage défini par logiciel Orion pour orchestrer de manière transparente des milliers d’opérations dépendantes et indépendantes.
figue. Plusieurs OC réalisant l’ingénierie de topologie
Un défi particulièrement intéressant était que, pour la première fois, le routage de chemin le plus court sur les topologies de maillage ne pouvait plus fournir les performances et la robustesse requises par notre centre de données. Un effet secondaire de topologies clos typiquement déployées est que, bien que de nombreux chemins sont disponibles via le réseau, tous ont la même longueur et la même capacité de liaison, de sorte que la distribution inconsciente de paquets, ou Équilibrage de chargement vaillant, Fournit des performances suffisantes. Dans Jupiter, nous tirons parti de notre plan de contrôle SDN pour introduire dynamique l’ingénierie du trafic, Techniques d’adoption lancée pour Google’S B4 WAN: Nous partageons le trafic entre plusieurs chemins les plus courts et non plus ratés tout en observant la capacité de liaison, les modèles de communication en temps réel et la priorité individuelle de l’application (flèches rouges dans la figure ci-dessous).
figue. Les tables de flux sur les commutateurs effectuent l’ingénierie du trafic
Dans l’ensemble, nous avons complètement ré-archite des réseaux de centre de données Jupiter qui alimentent Google’Speincheries S, introduisant un certain nombre de premières de l’industrie en cours de route:
- Les circuits optiques communiquent comme point d’interopérabilité pour les réseaux à l’échelle de construction, soutenant de manière transparente les technologies hétérogènes, les mises à niveau et les exigences de service.
- Topologies de réseau directement basées sur un maillage pour des performances plus élevées, une latence plus faible, un coût inférieur et une consommation d’énergie inférieure.
- La topologie en temps réel et l’ingénierie du trafic pour adapter simultanément la connectivité du réseau et la trajectoire pour faire correspondre la priorité et les modèles de communication de l’application, tout en observant la maintenance et les échecs en temps réel.
- Amélioration du réseau sans succès avec Add / Supprimer de la capacité localisée, éliminant le besoin de coût et de travail coûteux “Tous les services” Mises à niveau de style qui exigeaient auparavant des centaines de clients et de services individuels pour déplacer leurs services pour un temps d’arrêt de la construction prolongée.
Bien que la technologie sous-jacente soit impressionnante, l’objectif final de notre travail est de continuer à offrir des performances, une efficacité et une fiabilité qui offrent ensemble des capacités transformatrices pour les services distribués les plus exigeants alimentant Google et Google Cloud. Comme mentionné ci-dessus, notre réseau Jupiter consomme 40% de puissance en moins, engage 30% de coût en moins et offre 50x moins de temps d’arrêt que les meilleures alternatives que nous connaissons, tout en réduisant l’achèvement du débit de 10% et en améliorant le débit de 30%. Nous sommes fiers de partager les détails de cet exploit technologique à Sigcomm aujourd’hui et nous sommes impatients de discuter de nos résultats avec la communauté.
Félicitations et merci aux innombrables Googlers qui travaillent sur Jupiter tous les jours et aux auteurs de cette dernière recherche: Leon Poutievski, Omid Mashayekhi, Joon Ong, Arjun Singh, Mukarram Tariq, Rui Wang, Jianan Zhang, Virginia Beauregard, Patrick Conner, Steve Gribble, Rishi Kapoor, STEPHEN KRATVER, NANFI, HEU, RISHI KAPOR Arthik Nagaraj, Jason Ornstein, Samir Sawhney, Ryohei Urata, Lorenzo vicisano, Kevin Yasumura, Shidong Zhang, Junlan Zhou, Amin Vahdat.
1. Un bloc d’agrégation comprend un ensemble de racks machine (calcul / stockage / accélérateur), y compris les commutateurs haut de gamme (TOR) connectés par une couche d’interrupteurs généralement colocalisés.