Die Cybersicherheits-Community wurde kürzlich auf eine kritische Schwachstelle im NVIDIA Container Toolkit aufmerksam gemacht - eine wesentliche Komponente für GPU-beschleunigte Anwendungen in den Bereichen KI und ML (maschinelles Lernen). Die als CVE-2024-0132 identifizierte Schwachstelle hat erhebliche Auswirkungen auf eine Vielzahl von KI-Anwendungen, die sowohl in der Cloud als auch vor Ort auf GPU-Ressourcen angewiesen sind. Nach seiner Entdeckung im September 2024 bestätigte NVIDIA das Problem und veröffentlichte kurz darauf einen Patch.
Details der Schwachstelle
Die Schwachstelle im NVIDIA Container Toolkit, insbesondere in den Versionen bis einschließlich 1.16.1, beruht auf einem Time-of-check Time-of-Use (TOCTOU) Fehler. Diese Schwachstelle kann ausgenutzt werden, um die Privilegien zu erhöhen, Container zu umgehen und GPU-Workloads zu manipulieren, was zu fehlerhaften KI-Ausgaben oder kompletten Dienstunterbrechungen führen kann.
Zu den spezifischen Schwachstellen im Zusammenhang mit diesem Vorfall gehören:
- CVE-2024-0132: Dieser kritische Fehler, der auf der Schweregradskala mit 9,0 bewertet wird, kann es speziell gestalteten Container-Images ermöglichen, auf das Host-Dateisystem zuzugreifen, was zu Codeausführung, Denial-of-Service und Privilegienerweiterung führen kann.
- CVE-2024-0133: Diese mittelschwere Sicherheitslücke mit einer Bewertung von 4.1 ermöglicht es speziell gestalteten Container-Images, leere Dateien auf dem Host-Dateisystem zu erstellen, was zu Datenmanipulationen führen könnte.
NVIDIA hat die Schwachstelle umgehend behoben, indem es ein Sicherheitsbulletin und aktualisierte Versionen der betroffenen Software veröffentlicht hat.
Wer ist davon betroffen?
Untersuchungen zeigen, dass mehr als ein Drittel (35 %) der Cloud-Umgebungen, die NVIDIA-GPUs verwenden, gefährdet sind, wie Wiz herausgefunden hat.
Unternehmen, die das NVIDIA Container Toolkit bis einschließlich Version 1.16.1 sowie den NVIDIA GPU Operator bis einschließlich Version 24.6.1 einsetzen, sollten ihre Umgebungen überprüfen und die erforderlichen Maßnahmen ergreifen, um die kaskadierenden Auswirkungen dieser Sicherheitslücke zu verringern.
Das NVIDIA Container Toolkit verstehen
Das NVIDIA Container Toolkit wurde entwickelt, um die Erstellung und Ausführung von GPU-beschleunigten Docker-Containern zu erleichtern. Standardmäßig haben Container keinen Zugriff auf GPUs. Mit diesem Toolkit können Benutzer ihre NVIDIA-GPUs für ihre Container freigeben. Das Toolkit besteht aus Laufzeitbibliotheken und Dienstprogrammen, die die Konfiguration von Containern automatisieren, in denen Benutzer NVIDIA-GPUs zur Verarbeitung hochleistungsfähiger KI-Workloads nutzen können. Kurz gesagt, das NVIDIA Container Toolkit ermöglicht Containern den Zugriff auf die NVIDIA GPU, so dass Anwendungen, die GPU-Beschleunigung benötigen, schneller und effizienter ausgeführt werden können.
Zusammen mit dem NVIDIA GPU Operator - der GPU-Ressourcen in Kubernetes-Umgebungen orchestriert - spielt das Toolkit eine zentrale Rolle in modernen KI- und ML-Anwendungen. Im Wesentlichen steigert es die Leistung und Effizienz von Anwendungen, die HPC (High-Performance Computing) für datenintensive Aufgaben wie KI-Training benötigen.
Eine Schwachstelle kann jedoch auf verschiedene Weise zu Risiken führen:
- Unbefugter Zugriff auf die GPU: Angreifer könnten sich Zugriff auf die GPU verschaffen und Datendiebstahl oder Ressourcen-Hijacking betreiben.
- Eskalation von Privilegien: Angreifer können aus Containern ausbrechen und Code auf dem Hostsystem ausführen, um die zugrunde liegende Infrastruktur zu kompromittieren.
- Container Angriffe: Ein kompromittierter Container könnte unrechtmäßigen Zugriff auf die GPU-Ressourcen anderer Container eröffnen. Dies kann zu Datenlecks oder Denial-of-Service-Angriffen auf mehrere Anwendungen führen, die auf demselben System laufen.
- Gefährdung sensibler Daten: Anstatt direkt sensible Daten auszuspionieren, suchen Angreifer manchmal nach Schwachstellen in verschiedenen Systemkomponenten, um sich in der Umgebung zurechtzufinden und ihre Privilegien zu erweitern. Die Container macht diese Angriffe noch komplexer.
Mögliches Angriffsszenario
Ein möglicher Angriffsablauf, der das NVIDIA Container Toolkit ausnutzt, kann in drei Schritten verallgemeinert werden:
- Ein bösartiges Image erstellen: Ein Angreifer kann ein bösartiges Container-Image erstellen, das auf die Ausnutzung von CVE-2024-0132 abzielt.
- Zugriff auf das Host-Dateisystem: Der Angreifer führt dann das bösartige Image auf einer anfälligen Plattform aus, sei es direkt über gemeinsam genutzte GPU-Dienste oder indirekt über ein Angriffsschema der Lieferkette oder über Social Engineering. Auf diese Weise kann er das Host-Dateisystem mounten und sich unbefugten Zugriff auf die zugrunde liegende Infrastruktur und potenziell vertrauliche Daten anderer Benutzer verschaffen.
- Vollständige Kontrolle: Mit Zugriff auf kritische Unix-Sockets (docker.sock/containerd.sock) kann der Angreifer beliebige Befehle auf dem Host-System mit Root-Rechten ausführen und schließlich die Kontrolle über den Rechner übernehmen.
Empfehlungen zum Schutz vor Schwachstellen in Container
Dieser Vorfall ist eine rechtzeitige Erinnerung daran, dass selbst vertrauenswürdige Container-Images aus seriösen Quellen schwerwiegende Schwachstellen bergen können. Unternehmen, die das NVIDIA Container Toolkit verwenden, sollten:
Upgrade auf die neueste Version
Benutzern wird dringend empfohlen, so bald wie möglich auf NVIDIA Container Toolkit Version 1.16.2 und NVIDIA GPU Operator 24.6.2 zu aktualisieren, insbesondere für Container-Hosts, die möglicherweise nicht vertrauenswürdige Images verwenden.
Regelmäßige Sicherheitsscans durchführen
Implementieren Sie regelmäßige Scan-Verfahren für bösartige Container-Images und andere Komponenten, die in Ihre Anwendung in Cloud-Umgebungen eingehen. Regelmäßige Scans helfen bei der Bewertung von Risiken und der Identifizierung von Sicherheitslücken im Zusammenhang mit diesen Images. Automatisierte Scan-Tools können dabei helfen, kontinuierlich nach bekannten Schwachstellen und Fehlkonfigurationen zu suchen.
Die Integration von Sicherheitsscans in CI/CD-Pipelines stellt zudem sicher, dass Schwachstellen vor der Bereitstellung erkannt werden, während umfassende Berichte Einblicke in erkannte Risiken und empfohlene Abhilfemaßnahmen bieten.
Secure Container Images mit MetaDefender Software Supply Chain
Zur Entschärfung von Schwachstellen, wie sie im NVIDIA Container Toolkit gefunden wurden, OPSWAT MetaDefender Software Supply Chain robuste Funktionen zum Scannen von Bedrohungen für Container-Registrierungen und Quellcode-Repositories.
Software und DevSecOps-Teams werden über potenziell bösartige oder anfällige Container-Images in ihren Anwendungsstacks informiert. Durch die Nutzung mehrerer Ebenen der Bedrohungserkennung und -abwehr liefert MetaDefender Software Supply Chain auch Erkenntnisse und Empfehlungen für Abhilfemaßnahmen, einschließlich Updates für sichere Versionen der betroffenen Container-Images.
MetaDefender Software Supply Chain
Sie können den Bedrohungsstatus für die Pakete in Ihren Container-Images sowohl auf allgemeiner als auch auf detaillierter Ebene bewerten.
Container ist Teil der KI-Sicherheit
Schwachstellen in Container haben gezeigt, dass Unternehmen, die zunehmend von KI- und ML-Technologien abhängig sind, eine wachsame und proaktive Sicherheit benötigen. Wenn Sie mehr über Containersicherheit und Sicherheit in der Software-Lieferkette erfahren möchten, lesen Sie unsere Ressourcen:
MetaDefender Software Supply Chain