Das setzt Franza, einen 22-jährigen Intel-Veteranen, der 2016 als System-Hardware-Architekt in das Aurora-Projekt einstieg, die Umstellung auf eine GPU-basierte Maschine überwachte und 2021 zum Chefarchitekten ernannt wurde, ein wenig unter Druck.
„Der Chefarchitekt ist für die Definition der gesamten Systemarchitektur des Supercomputers verantwortlich, entsprechend den hohen Anforderungen des Kunden“, erklärt Franza. „Es gibt grundlegende Anforderungen wie allgemeine Leistungsmetriken und den Energiebedarf, aber auch inhärente Merkmale wie RAS – Zuverlässigkeit, Verfügbarkeit, Wartungsfreundlichkeit -, die für den Aufbau eines skalierbaren Systems unerlässlich sind.“
Sein Verantwortungsbereich umfasst auch die Details der Systemtopologie, von einem Knoten über ein Rack bis hin zum kompletten System, einschließlich der Netzwerkstruktur und der Speicherkomponenten.
Ein Schwenk in der Roadmap eröffnet die Möglichkeit, zukünftige Produkte zu gestalten
Als die ursprüngliche Planung für Aurora, ein vom US-Energieministerium gefördertes System, begann, bestand das Design aus einer Sammlung von Intel-Technologien. Änderungen an Intels Produktplan, insbesondere das Ende der Xeon Phi- und Omnipath-Produktfamilien, machten jedoch einen Neustart erforderlich. Als Intel Pläne für den Bau von Rechenzentrums-GPUs schmiedete, wurde Franza in Diskussionen über das Design der Intel® Data Center GPU Max Series (Codename Ponte Vecchio) verwickelt.
Auf diese Weise ist Aurora nicht nur ein einmaliges System. Vielmehr hat es dazu beigetragen, die Intel-weite Strategie und das Produktportfolio zu beeinflussen, um Skalierung und Leistung auf höchstem Niveau zu erreichen.
„Wir haben alle Aurora-Anforderungen auf Systemebene bis hinunter auf die Komponentenebene übertragen“, sagt Franza.
Die Architektur und das Konzept für die Intel® Xeon® CPU Max Series mit Speicher mit hoher Bandbreite wurde beispielsweise durch einige Funktionen der Intel Xeon Phi-Plattform hervorgebracht, dem ersten Produkt, das eine innovative Speicherarchitektur für hohe Bandbreite und hohe Kapazität auf einem Gehäuse integriert.
Darüber hinaus trieb der Bedarf an hoher Leistung weitere Fortschritte in allen Subsystemen voran, von der thermomechanischen Lösung des Compute Blades über die dichte physikalische Integration bis hin zum Speicher.
„Intel hat schließlich ein völlig neues Speicherkonzept entwickelt, DAOS (Distributed Asynchronous Object Storage)“, sagt Franza. Dabei handelt es sich um ein Open-Source-Software-Ökosystem, das Hochgeschwindigkeitsspeicher auf herkömmlicher Hardware ermöglicht. „Aurora wird eines der ersten Systeme sein, das es nutzt, und bei weitem das größte.
Vom Entwerfen von Komponenten bis zum Zusammenfügen tausender von Systemen
Das Aurora-Projekt erforderte ein Denken auf Systemebene und eine umfassende Zusammenarbeit zwischen verschiedenen Geschäftsbereichen innerhalb von Intel sowie mit den Wissenschaftlern von Argonne und den Ingenieuren von Hewlett Packard Enterprise, dem anderen Hauptpartner des Projekts.
„Das gesamte Team zusammenzubringen und eine Maschine wie Aurora zu liefern, ist für viele von uns eine einmalige Erfahrung“, sagt Franza.
Obwohl die Ingenieure die letzte Schaufel im Juni installiert haben, hält das Projekt Franza weiterhin nachts wach, da das System die Phasen der Prüfung, Stabilisierung und Validierung im großen Maßstab durchläuft.
Er leitet ein großes Team an, das an der Systemeinführung, -validierung, -stabilisierung, -optimierung und -aktivierung von Workloads mit voller Systemleistung arbeitet. Besonders hervorzuheben ist der High Performance Linpack (HPL)-Benchmark, mit dem die besten Systeme der Welt ermittelt werden, wie die halbjährlich erscheinende Top500-Liste belegt.
Jeden Morgen nimmt Franza am täglichen Standup-Meeting teil, um die nächtlichen Läufe jedes einzelnen Knotens zu überprüfen und einen Plan für die Arbeit des nächsten Tages und darüber hinaus zu erstellen. Jeden Nachmittag werden in einer täglichen Abschlussbesprechung die Fortschritte und Hürden zusammengefasst. Die Arbeit steht nie still, die Maschine läuft immer.
„Wir gehen schrittweise vor, um methodisch zu validieren und in großem Maßstab zu stabilisieren“, erklärt er. „Man beginnt mit der Klinge, geht dann zum Rack über, dann zu mehreren Racks und skaliert von dort aus.“
Aurora besteht aus 10.624 Compute Blades mit 63.744 Intel Max Series GPUs – mehr GPUs als jedes andere System der Welt – und 21.248 Intel Xeon Max CPUs in 166 Racks.
„Es hat die Größe von vier Tennisplätzen, was sich nach viel anhört, nicht wahr?“, sagt er. „Aber erst wenn man es tatsächlich sieht, wird einem die schiere Größe des Projekts bewusst.“
Franza muss sicherstellen, dass das riesige System stabil, funktionell und leistungsfähig ist. Das ist eine gewaltige Aufgabe, aber das Ziel ist zum Greifen nah.
„Durch die Gänge zu gehen, wenn alle Lichter brennen, und zu spüren, dass die Maschine läuft, ist beeindruckend und natürlich sehr befriedigend“, sagt er. „Es ist eine sehr greifbare Leistung, die für sich selbst spricht.“
Eine „einmalige“ Leistung, ein die Wissenschaft prägender Supercomputer
Was ihn trotz der technischen Hürden und unerwarteten Hindernisse antreibt, ist die Möglichkeit, „eine außergewöhnliche Maschine“ zu bauen, die die Forschung vorantreiben wird. Er führt das enorme Potenzial von Aurora für die Krebsforschung als einen Bereich an, in dem das Projekt uns allen zugute kommen wird.
„Ich denke, das ist etwas, das uns sehr stolz machen wird“, sagt er.
Aurora wird nicht nur an der Lösung einiger der komplexesten wissenschaftlichen und technischen Probleme der Welt arbeiten, sondern auch eine ideale Plattform für den Betrieb generativer KI und deren Anwendung in der Forschung sein. „Es wird eines der größten bisher geplanten großen Sprachmodelle ermöglichen, das Aurora GenAI-Projekt mit 1 Billion Parametern, das das Leben von Wissenschaftlern verbessert, ermöglicht und erleichtert“, sagt Franza.
Vor allem aber genießt er die Teamarbeit und die Kameradschaft.
„Es ist ein langwieriges Unterfangen, das viel Durchhaltevermögen erfordert“, sagt er. „Das Kernteam hat sich eine Marathon-Mentalität bewahrt, bei der es nicht vorbei ist, bevor es vorbei ist. Wir brauchten die Art von Leuten, die sich über einen langen Zeitraum hinweg auf eine große Herausforderung konzentrieren können. Und am Ende haben wir etwas erreicht, von dem nur sehr wenige behaupten können, dass sie es geschafft haben.
– – – – –
Weiterführende Links
👉 www.intel.de
Foto: Intel