AWS setzt bei seinen KI-Servern auf Flüssigkeitskühlung

Diese Woche ist AWS re:Invent, Amazons jährliche Cloud-Computing-Spektakel in Las Vegas, und wie es Tradition ist, hat das Unternehmen so viel zu verkünden, dass es nicht alles in seine fünf (!) Keynotes unterbringen kann. Vor der offiziellen Eröffnung der Messe stellte AWS am Montag eine Reihe von Aktualisierungen seiner gesamten Rechenzentrumsstrategie vor, die es wert sind, beachtet zu werden.

Das wichtigste davon ist, dass AWS bald damit beginnen wird, Flüssigkeitskühlung für seine KI-Server und andere Maschinen zu verwenden, unabhängig davon, ob diese auf seinen selbst entwickelten Trainium-Chips und den Beschleunigern von Nvidia basieren. Insbesondere weist AWS darauf hin, dass seine Trainium2-Chips (die sich noch in der Vorschau befinden) und „KI-Supercomputing-Lösungen im Rack-Maßstab wie NVIDIA GB200 NVL72“ auf diese Weise gekühlt werden.

Hervorzuheben ist, dass AWS betont, dass diese aktualisierten Kühlsysteme sowohl Luft- als auch Flüssigkeitskühlung integrieren können. Schließlich gibt es in den Rechenzentren noch jede Menge andere Server, die beispielsweise die Vernetzung und Speicherung übernehmen und keine Flüssigkeitskühlung benötigen. „Dieses flexible, multimodale Kühldesign ermöglicht es AWS, maximale Leistung und Effizienz zu niedrigsten Kosten bereitzustellen, unabhängig davon, ob herkömmliche Workloads oder KI-Modelle ausgeführt werden“, erklärt AWS.

Das Unternehmen gab außerdem bekannt, dass es bei seinen Servern und Server-Racks auf einfachere elektrische und mechanische Designs umsteigen wird.

„Zu den neuesten Verbesserungen des Rechenzentrumsdesigns von AWS gehören vereinfachte elektrische Verteilungs- und mechanische Systeme, die eine Infrastrukturverfügbarkeit von 99,9999 % ermöglichen. Die vereinfachten Systeme reduzieren außerdem die potenzielle Anzahl der Racks, die von elektrischen Problemen betroffen sein können, um 89 %“, stellt das Unternehmen in seiner Ankündigung fest. AWS erreicht dies zum Teil dadurch, dass die Häufigkeit der Stromumwandlung auf dem Weg vom Stromnetz zum Server reduziert wird.

AWS hat nicht viele weitere Details bereitgestellt, aber das bedeutet wahrscheinlich, dass für den Betrieb der Server und/oder des HVAC-Systems Gleichstrom verwendet wird und viele der sonst notwendigen Wechselstrom-Gleichstrom-Wechselstrom-Umwandlungsschritte (mit ihren Standardverlusten) vermieden werden.

„AWS entwickelt seine Infrastruktur kontinuierlich weiter, um die leistungsfähigste, stabilste, sicherste und nachhaltigste Cloud für Kunden weltweit aufzubauen“, sagte Prasad Kalyanaraman, Vizepräsident für Infrastrukturdienste bei AWS, in der Ankündigung vom Montag. „Diese Rechenzentrumsfunktionen stellen einen wichtigen Fortschritt mit erhöhter Energieeffizienz und flexibler Unterstützung für neue Arbeitslasten dar. Noch spannender ist jedoch, dass sie modular konzipiert sind, sodass wir unsere bestehende Infrastruktur für Flüssigkeitskühlung und Energieeffizienz nachrüsten können, um generative KI-Anwendungen zu betreiben und unseren CO2-Fußabdruck zu verringern.“

Insgesamt, so AWS, wird das neue multimodale Kühlsystem und das verbesserte Stromversorgungssystem es der Organisation ermöglichen, „in den nächsten zwei Jahren eine sechsfache Steigerung der Rack-Leistungsdichte und in der Zukunft eine weitere dreifache Steigerung zu unterstützen“.

In diesem Zusammenhang weist AWS auch darauf hin, dass es jetzt KI nutzt, um vorherzusagen, wie Racks im Rechenzentrum am effizientesten positioniert werden, um die Menge an ungenutztem oder nicht ausreichend genutztem Strom zu reduzieren. AWS wird außerdem ein eigenes Steuerungssystem für alle elektrischen und mechanischen Geräte im Rechenzentrum einführen, das über integrierte Telemetriedienste für Echtzeitdiagnose und Fehlerbehebung verfügt.

„Rechenzentren müssen sich weiterentwickeln, um den transformativen Anforderungen der KI gerecht zu werden“, sagte Ian Buck, Vizepräsident für Hyperscale und HPC bei NVIDIA. „Durch die Bereitstellung fortschrittlicher Flüssigkeitskühlungslösungen kann die KI-Infrastruktur effizient gekühlt und gleichzeitig der Energieverbrauch minimiert werden. Unsere Zusammenarbeit mit AWS beim Entwurf ihres Flüssigkeitskühlungs-Racks wird es Kunden ermöglichen, anspruchsvolle KI-Workloads mit außergewöhnlicher Leistung und Effizienz auszuführen.“

tch-1-tech