GPU-Beschleunigung in COMSOL Multiphysics®


Die neuesten Versionen von COMSOL Multiphysics® bieten neue Funktionen zur Beschleunigung von Simulationen mit NVIDIA® Grafikprozessoren (GPUs). Diese Verbesserungen erweitern die Bandbreite der Modelle, die von GPU-Hardware profitieren können. Dazu gehören Direct Sparse Solvers, die für alle Einzelphysik- oder Multiphysik-Anwendungen geeignet sind, sowie die Unterstützung für zeitexplizite Druckakustiksimulationen und das Training von Ersatzmodellen mit Deep Neural Networks (DNN). In Version 6.4 ist die GPU-Unterstützung für direkte Löser vollständig in das Standard-Löser-Framework integriert, sodass Benutzer die Vorteile der GPU-Beschleunigung für bestehende Modelle nutzen können, ohne Änderungen an den zugrunde liegenden physikalischen Einstellungen vornehmen zu müssen.

GPU-Beschleunigung für Direct Sparse Solvers

Eine der zeitaufwendigsten Phasen in vielen Finite-Elemente-Simulationen ist die wiederholte Lösung großer linearer Systeme. Solche Systeme entstehen durch implizite Zeitschritte, nichtlineare Iterationen, Eigenfrequenzanalysen und Parametersweeps. Um diese Art von Studien zu ermöglichen, enthält COMSOL Multiphysics® Version 6.4 nun den NVIDIA CUDA® Direct Sparse Solver (cuDSS). Dieser Löser führt Matrixfaktorisationen mit einer oder mehreren GPUs auf einem einzigen Computer durch und nutzt dabei die hohe Speicherbandbreite und den massiven Parallelismus der aktuellen GPU-Hardware.

Die Benutzeroberfläche von COMSOL Multiphysics zeigt den Model Builder mit dem hervorgehobenen Knoten Direct, das entsprechende Einstellungsfenster und ein Felgenmodell im Grafikfenster.
Die GPU-Beschleunigung mit NVIDIA cuDSS bietet auch Vorteile für herkömmliche strukturelle Finite-Elemente-Analysen auf Standard-Workstation-Hardware. In diesem Beispiel einer Felge wird die effektive Spannung visualisiert, und die GPU-basierte Lösung auf einer NVIDIA RTX™ 5000 Ada Generation Workstation-GPU erzielte eine doppelte Geschwindigkeitssteigerung im Vergleich zu einer CPU-basierten Lösung auf einem Intel® W5-2465X-Prozessor.

Die Leistungsverbesserungen variieren je nach Anwendung, jedoch wurden bei Modellen mit mehreren Millionen Freiheitsgraden erhebliche Zeiteinsparungen beobachtet. Beispielsweise führte die Lösung einer thermoviskosen Akustik-Benchmark-Simulation, die eine multiphysikalische Analyse der Schallübertragung durch eine perforierte Platte umfasste, auf mehreren NVIDIA® H100-GPUs zu deutlich kürzeren Laufzeiten im Vergleich zu einem Dual-Prozessor-CPU-System. Auch bei Standardmodellen der Strukturmechanik zeigen sich deutliche Verbesserungen, wenn die direkte Lösungsphase auf Workstation-GPUs wie die RTX 5000 Ada ausgelagert wird.

Die cuDSS-Implementierung unterstützt sowohl Doppelpräzisions- als auch Einzelpräzisionsarithmetik. Da die Einzelpräzision den Speicherbedarf um die Hälfte reduziert, kann sie die Leistung auf jeder Karte steigern, bei der die Anwendung speichergebunden ist, einschließlich kostengünstigerer GPUs. Ob ein bestimmtes Modell für die Einzelpräzision gut geeignet ist, hängt von seiner numerischen Konditionierung ab, die durch die Netzqualität, die Materialparameter und die zugrunde liegende Physik beeinflusst wird. Benutzer können die Präzisionsmodi direkt in den Lösereinstellungen testen und den Modus auswählen, der sowohl stabile Ergebnisse als auch die gewünschte Leistung bietet.

Ein Modell mit perforierter Platte, das die akustische Partikelgeschwindigkeit darstellt, und ein Diagramm, das die Berechnungsbeschleunigung für drei verschiedene Modellgrößen veranschaulicht.
Akustisches Multiphysik-Modell der Transferimpedanz einer perforierten Platte, wie sie in Schalldämpfern und akustischen Auskleidungen verwendet wird, gelöst mit cuDSS auf vier NVIDIA® H100-GPUs. Das Bild zeigt die akustische Partikelgeschwindigkeit. Benchmarking bei vier Modellgrößen (0,9–2,4 Millionen Freiheitsgrade) zeigt eine fast 5-fache Beschleunigung gegenüber einem CPU-basierten Direktlöser auf einem Dual-Intel® Xeon® Platinum 8260-System.

GPU-beschleunigte zeitexplizite Druckakustik

GPU-Unterstützung ist auch für zeitexplizite Druckakustiksimulationen verfügbar. Bei der Durchführung dieser Art von Simulationen kann die Notwendigkeit, große lineare Systeme bei jedem Zeitschritt zu lösen, vermieden werden, indem explizite Zeitschrittmethoden verwendet werden, die stattdessen auf wiederholten Vektoroperationen und lokalen Elementaktualisierungen basieren. Diese Operationen sind in hohem Maße parallelisierbar und lassen sich effizient auf GPU-Hardware durchführen.

Diese Fähigkeit ist besonders relevant für breitbandige Akustiksimulationen und große 3D-Gebiete, bei denen eine feine räumliche Auflösung zu einer großen Anzahl von Zeitschritten führt. Beispielsweise können Raumakustikmodelle, wie Büroräume oder Konzertsäle, Zehntausende von Zeitschritten erfordern, um die Wellenausbreitung genau zu berechnen. Durch die Auslagerung dieser Vorgänge auf GPUs kann die Gesamtsimulationszeit erheblich verkürzt werden.

Die GPU-beschleunigte Formulierung für explizite Akustik unterstützt sowohl Single-GPU- als auch Multi-GPU-Systeme, sowohl auf einem einzelnen Computer als auch auf Cluster-Knoten. Dadurch ist es möglich, Gebiete mit Hunderten von Millionen Freiheitsgraden zu simulieren. In einem wellenbasierten Modell einer Kammermusiksaal wurde beispielsweise eine Simulation mit etwa 300 Millionen Freiheitsgraden in wenigen Stunden auf einer einzigen NVIDIA® H100-GPU in Rechenzentrumsqualität durchgeführt, während dies auf mehreren CPU-Knoten mehrere Stunden gedauert hätte. Ähnliche Reduzierungen der Verarbeitungszeit lassen sich in Beispielen zur Automobilakustik und anderen groß angelegten transienten Analysen beobachten.

Bitte beachten Sie: Das Interface Pressure Acoustics, Time Explicit wird bei Verwendung einer einzelnen GPU für alle Lizenztypen unterstützt, erfordert jedoch bei Verwendung mehrerer GPUs eine Netzwerk-Lizenz (FNL).

Ausbreitung eines Impulses (mit einer Mittenfrequenz von 500 Hz) in einem Modell einer Kammermusiksaal mit 300 Millionen Freiheitsgraden, berechnet auf einer NVIDIA® H100 GPU in Rechenzentrumsqualität.

GPU-Unterstützung für das Training von Ersatzmodellen

COMSOL Multiphysics® bietet auch Werkzeuge zur Erstellung von DNN-Ersatzmodellen, die hochpräzise numerische Simulationen approximieren. Das Training dieser Netzwerke erfordert die wiederholte Auswertung großer Datensätze und viele Optimierungszyklen, die sich gut für die GPU-Beschleunigung eignen. Durch die Durchführung des Trainingsprozesses auf einer NVIDIA® GPU können Anwender die Zeit reduzieren, die für die Untersuchung von Netzwerkarchitekturen oder die Anpassung von Hyperparametern erforderlich ist.

Größere Netzwerke, die möglicherweise für die Erfassung komplexer multiphysikalischer Verhaltensweisen oder die Rekonstruktion räumlicher Modelle erforderlich sind, profitieren ebenfalls von der erhöhten Speicherbandbreite und der parallelen Rechenleistung von GPUs. Die GPU-Unterstützung für das DNN-Training wird direkt im Interface Surrogate Model aktiviert und funktioniert ohne Add-On-Produkte.

Die Benutzeroberfläche der geöffneten App Thermal Microactuator Surrogate Model mit verschiedenen Eingabe- und Ergebnisbereichen sowie einem 3D-Plot im Grafikfenster.
Eine Simulations-App für einen MEMS-Thermoaktuator, die auf einem DNN-Ersatzmodell basiert, ermöglicht eine äußerst schnelle Modellbewertung von Größen wie Temperatur, Verschiebung und Spannung. Das Ersatzmodell wurde unter Verwendung von GPU-Beschleunigung auf einer Standard-Workstation trainiert.

Weitere Ressourcen

Weitere Informationen zur GPU-Beschleunigung in COMSOL Multiphysics® finden Sie hier: