Die versteckte Gefahr in einem vertrauten Dateiformat
PDF-Dateien gehören zu den Dokumentformaten, die in Unternehmensumgebungen das größte Vertrauen genießen und am weitesten verbreitet sind. Sie werden täglich per E-Mail, über Dateifreigabeplattformen und in Tools für die Zusammenarbeit ausgetauscht. Gerade wegen dieses Vertrauens sind sie zu einem der am häufigsten missbrauchten Angriffsvektoren für Phishing-Kampagnen, die Verbreitung von Malware und Social-Engineering-Angriffe geworden.
Laut Check Point Research nutzen 22 % der dateibasierten Cyberangriffe PDF-Dateien als Übertragungsweg, und 68 % aller Cyberangriffe gehen vom E-Mail-Posteingang aus. Weniger bekannt ist jedoch, dass PDF-Dateien nicht nur Behälter für sichtbare Inhalte sind. Es handelt sich um strukturierte Dokumente mit einer definierten internen Architektur, und die Art und Weise, wie diese Architektur analysiert wird, variiert je nach Reader, Sicherheitstool und KI-System.
Diese Variabilität ist kein Fehler. Es handelt sich um ein Konstruktionsmerkmal, und versierte Angreifer haben gelernt, es auf eine Weise auszunutzen, die weder eine Sicherheitslücke noch ein Exploit-Kit oder komplexe Tools erfordert.
Die Struktur von PDF-Dateien verstehen
Um zu verstehen, wie ein Verkettungsangriff funktioniert, muss man zunächst wissen, wie PDF-Parser ein Dokument lesen.
Wenn ein PDF-Reader eine Datei öffnet, folgt er einer festgelegten Abfolge: Er ermittelt die letzte Dateiende-Markierung, liest den Startxref-Zeiger, nutzt diesen, um die Querverweistabelle (xref) und den Trailer zu finden, und rekonstruiert dann das Dokument, indem er die Objekt-Offsets auflöst. Diese Vorgehensweise ist beabsichtigt und ermöglicht es dem Reader, Objekte in umfangreichen Dokumenten sofort zu finden, ohne die gesamte Datei durchscannen zu müssen.

Die PDF-Spezifikation definiert zudem einen Mechanismus namens „Inkrementelle Aktualisierungen“, der es ermöglicht, Dokumente zu ändern, ohne die gesamte Datei neu zu schreiben. Änderungen werden an das Ende des Dokuments angehängt, und bei jeder Aktualisierung werden neue Objekte, eine neue XRef-Tabelle, ein neuer Trailer sowie eine neue Dateiende-Markierung hinzugefügt.

Aufgrund dieser Konzeption kann eine gültige PDF-Datei durchaus mehrere XRef-Tabellen, mehrere Trailer und mehrere Dateiende-Marker enthalten. Die meisten modernen Parser verarbeiten diese Struktur korrekt. Doch genau diese strukturelle Flexibilität bietet auch messbare Möglichkeiten zur Manipulation.
Die Verkettungstechnik
Im Rahmen interner Sicherheitsuntersuchungen OPSWAT , dass das Zusammenfügen zweier völlig unabhängiger PDF-Dateien zu einer einzigen Datei ein Dokument erzeugt, das von verschiedenen Parsern auf grundlegend unterschiedliche Weise interpretiert wird. Was als strukturelle Kuriosität begann, offenbarte eine aussagekräftige und reproduzierbare Umgehungstechnik, die bislang weitgehend unberücksichtigt geblieben war. Die resultierende Datei enthält zwei unabhängige Dokumentstrukturen, von denen jede über einen eigenen Header, eine eigene XRef-Tabelle, einen eigenen Trailer und eine eigene Dateiende-Markierung verfügt.
Dies ähnelt konzeptionell den Techniken zur Ausnutzung von Parsern, die bereits bei Archivdateien beobachtet wurden, bei denen strukturelle Mehrdeutigkeiten genutzt werden, um schädliche Inhalte vor Sicherheitsprogrammen zu verbergen. Im Falle von PDF-Dateien reichen die Folgen noch weiter: Nicht nur sind sich Sicherheitsscanner uneinig darüber, was die Datei enthält, sondern die Version, die Nutzer letztendlich in ihrem PDF-Reader sehen, kann sich auch völlig von der Version unterscheiden, die geprüft wurde.

Da verschiedene PDF-Reader unterschiedliche Analysestrategien anwenden, kann dieselbe verkettete Datei je nach der Anwendung, mit der sie geöffnet wird, völlig unterschiedliche Inhalte anzeigen.
Unterschiedliche Anwendungen, unterschiedliche Inhalte
Es wurde ein Proof-of-Concept erstellt, das zwei PDF-Abschnitte umfasst: Der erste enthält die Anweisung, ein Rechteck zu zeichnen, der zweite die Anweisung, einen Kreis zu zeichnen.
Gängige PDF-Reader wie Adobe Reader, Foxit Reader, Chrome und Microsoft Edge suchen in der Datei nach dem letzten „startxref“-Zeiger, der auf die Struktur des angehängten (zweiten) Dokuments verweist. Sie geben die „circle“-Anweisung wieder.

Microsoft Word und Teams Preview wenden eine andere Analysestrategie an und ermitteln die erste Dokumentstruktur. Sie stellen die Anweisung für das Rechteck dar, die der Benutzer in Adobe Reader nicht sehen kann.

Gemessene Auswirkungen auf die Virenerkennung
Die sicherheitstechnischen Auswirkungen dieser strukturellen Mehrdeutigkeit wurden durch direkte Tests mit der OPSWAT -Plattform bestätigt, die die Ergebnisse mehrerer Antiviren-Engines zusammenfasst.
Schritt 1: Das ursprüngliche Phishing-PDF
Eine PDF-Datei mit Phishing-Inhalten und bösartigen Hyperlinks wurde 34 Antiviren-Engines vorgelegt. Acht Engines haben den schädlichen Inhalt korrekt erkannt.

Schritt 2: Verkettete PDF-Datei mit einem sauberen, vorangestellten Dokument
Dem Phishing-PDF wurde eine leere PDF-Datei vorangestellt, um ein verkettetes Dokument zu erstellen. Die kombinierte Datei wurde an dieselben 34 Engines übermittelt.

Die Erkennungsrate sank auf 5 von 34 Engines. Drei Antiviren-Engines erkannten die Bedrohung nicht mehr. Die wahrscheinlichste Erklärung dafür ist, dass diese Engines nur die erste Dokumentenstruktur in der Datei verarbeitet haben, die das harmlose PDF enthielt, und die zweite Struktur, in der sich der schädliche Inhalt befand, nicht durchlaufen haben.
Aus Sicht des Nutzers blieb das Risiko jedoch völlig unverändert. Als die verkettete Datei in Adobe Reader geöffnet wurde, wurde die Phishing-Seite genau so dargestellt, wie es der Angreifer beabsichtigt hatte.

Wie KI-Systeme verkettete Dokumente interpretieren
Da die KI-gestützte Dokumentenverarbeitung zunehmend in Unternehmensabläufe integriert wird, führt diese strukturelle Mehrdeutigkeit zu einer ganz eigenen Risikokategorie, die über die herkömmliche Verbreitung von Malware hinausgeht. Unternehmen stützen sich zunehmend auf große Sprachmodelle, um Dokumente zu analysieren, Informationen zu extrahieren und Entscheidungsprozesse zu unterstützen. Wenn diese Systeme eine andere Version eines Dokuments interpretieren als die, die ein menschlicher Nutzer sieht, reichen die Folgen weit über einen übersehenen Phishing-Link hinaus.
Tests mit derselben verketteten PDF-Datei zeigten, dass die großen KI-Plattformen die Datei nach derselben parserabhängigen Logik interpretieren, die auch bei herkömmlichen Reader-Anwendungen zu beobachten ist.
GPT: Interpretiert den ersten Abschnitt
GPT hat die erste Dokumentstruktur in der Datei analysiert und den Inhalt aus dem versteckten, vorangestellten Abschnitt extrahiert. Es hat die „rectangle“-Anweisung gelesen und ausgeführt, wobei es sich hierbei nicht um den Inhalt handelt, der für einen Benutzer sichtbar ist, der die Datei in Adobe Reader öffnet.

Gemini und Claude: Interpretation des zweiten (sichtbaren) Abschnitts
Sowohl Gemini als auch Claude haben die Struktur des zweiten Dokuments analysiert und den Inhalt so extrahiert, wie er den Nutzern in Adobe Reader angezeigt wird. Auch wenn dies aus Sicht der Benutzererfahrung das erwartete Verhalten ist, zeigt es doch, dass KI-Systeme denselben Unterschieden bei der strukturellen Analyse unterliegen wie herkömmliche Leseprogramme.


Diese Diskrepanz hat direkte Auswirkungen auf mehrere Risikoszenarien mit hoher Priorität:
- Prompt-Injection: Ein Angreifer bettet verdeckte Befehle in den verborgenen ersten Abschnitt einer verketteten PDF-Datei ein. Der Benutzer sieht ein normales Dokument. Ein KI-System, das die erste Struktur analysiert, erhält Befehle, die sein vorgesehenes Verhalten außer Kraft setzen, ohne dass dies für den Benutzer oder Prüfer erkennbar ist.
- Verfälschung von Trainingsdaten: Dokumente, die zur Feinabstimmung oder Erweiterung von KI-Modellen verwendet werden, können einen versteckten Abschnitt enthalten, der feindliche Inhalte in den Trainingskorpus einschleust, ohne dass dies erkannt wird.
- Verstöße gegen Compliance-Vorschriften und Fehler bei der Prüfung: KI-Systeme, die zur Dokumentenprüfung, Vertragsanalyse oder für die aufsichtsrechtliche Berichterstattung eingesetzt werden, verarbeiten unter Umständen eine Version eines Dokuments, die sich wesentlich von der Version unterscheidet, die von menschlichen Rechtsberatern oder Compliance-Mitarbeitern geprüft wurde, wodurch eine unbemerkte Lücke in der Unternehmensführung entsteht.
Für Rechts- und Unternehmensberater, Datenschutzbeauftragte und Compliance-Teams ist das Szenario, in dem ein KI-System auf Inhalte reagiert, die weder von einem Menschen geprüft noch von einem Sicherheitstool als verdächtig markiert wurden, keineswegs theoretisch. Durch die Verkettungstechnik lässt sich dies mühelos realisieren.
Wie OPSWAT Angriffe mit verketteten PDF-Dateien OPSWAT
Deep CDR™-Technologie: Dateibereinigung, die Bedrohungen beseitigt, bevor sie überhaupt entstehen
OPSWAT CDR™-Technologie behandelt jede Datei als potenziell schädlich. Anstatt zu versuchen, bestimmte schädliche Muster zu erkennen, zerlegt die Deep CDR™-Technologie jede Datei, überprüft ihre interne Struktur anhand offizieller Formatspezifikationen, entfernt alle Elemente, die nicht konform sind oder außerhalb der definierten Richtlinien liegen, und erstellt eine saubere, voll funktionsfähige Datei neu. Dieser Ansatz bekämpft Angriffe durch verkettete PDF-Dateien an ihrer strukturellen Wurzel.
Die Deep CDR™-Technologie verhindert diese Angriffstechnik mithilfe ihrer Funktion zur Überprüfung der Dateistruktur. Bei der Verarbeitung einer verketteten PDF-Datei erkennt die Deep CDR™-Technologie strukturelle Anomalien: das Vorhandensein mehrerer unabhängiger Dokumentstrukturen, mehrerer XRef-Tabellen, mehrerer Trailer und mehrerer Dateiende-Marker in einer Konfiguration, die nicht den Anforderungen eines gültigen einzelnen PDF-Dokuments entspricht. Anschließend entfernt sie die widersprüchlichen Elemente und rekonstruiert das Dokument ausschließlich aus der verifizierten, sicheren Inhaltsschicht.
Was die Deep CDR™-Technologie tatsächlich entfernt
Der folgende Screenshot vonMetaDefender das Analyseergebnis der Deep CDR™-Technologie für die verkettete Phishing-PDF-Datei. Dank der Konfiguration und Anwendung der Deep CDR™-Technologie hat das System jedes Element identifiziert, das gegen die erwartete Dateistruktur oder Sicherheitsrichtlinie verstieß, und entsprechend reagiert.

Wie dargestellt, hat die Deep CDR™-Technologie die folgenden Maßnahmen an der zusammengefügten PDF-Datei vorgenommen:
- 2 Hyperlinks wurden entfernt: Die im Dokument eingebetteten bösartigen Phishing-Links wurden entfernt, bevor die Datei den Nutzer erreichte.
- Sanitized 1 Bild: Das eingebettete Bild, das als visueller Köder in der Phishing-Nachricht verwendet wurde, wurde bereinigt.
- 3 nicht verwendete Objekte wurden entfernt: Die verwaisten Objekte aus der ausgeblendeten ersten Dokumentstruktur, die keiner gültigen Dokumentebene mehr zugeordnet waren, wurden identifiziert und entfernt.
Das Ergebnis ist eine strukturell saubere PDF-Datei, die geschäftsrelevante Inhalte bewahrt und die Prüfungen der Dateiformatspezifikationen besteht. Entscheidend ist, dass das, was der Benutzer erhält, was Antiviren-Engines scannen und was nachgelagerte KI-Systeme verarbeiten, identisch ist: ein einziges, verifiziertes Dokument ohne versteckte Strukturen, ohne bösartige Links und ohne Objekte, die gegen die Richtlinien verstoßen.
Flexibler Desinfektionsmodus
In Umgebungen, in denen neben der Sicherheit auch die Benutzerfreundlichkeit gewährleistet sein muss, arbeitet die Deep CDR™-Technologie im flexiblen Bereinigungsmodus. Das System blockiert die Datei nicht. Stattdessen führt es eine strukturelle Rekonstruktion durch: Die konfliktauslösenden Dokumentabschnitte werden entfernt, alle aktiven und potenziell schädlichen Objekte werden entfernt, und es wird eine saubere, richtlinienkonforme PDF-Datei neu generiert und an den Benutzer übermittelt. Die Benutzerfreundlichkeit bleibt erhalten, während die Angriffsfläche beseitigt wird.
Bericht zu den Desinfektionsmaßnahmen
Jede mit der Deep CDR™-Technologie verarbeitete Datei erzeugt einen forensischen Bereinigungsbericht, in dem dokumentiert wird, welche Objekte identifiziert wurden, welche Maßnahmen ergriffen wurden und warum. Wie in Abbildung 11 dargestellt, bietet dieser Bericht einen vollständigen Prüfpfad für jede behobene strukturelle Anomalie und jeden Verstoß gegen Richtlinien. Für Compliance-Beauftragte, Datenschutzbeauftragte und Rechtsberater ist dieser Bericht der dokumentierte Nachweis dafür, dass Dateien, die in die Umgebung gelangen, gemäß einer einheitlichen, überprüfbaren Sicherheitsrichtlinie verarbeitet wurden und dass jede Abweichung von der erwarteten Dateistruktur erfasst und behoben wurde.
Adaptive Sandbox: Strukturorientierte Analyse ohne blinde Flecken
Während die Deep CDR™-Technologie das Risiko durch die Bereinigung und Neugestaltung des Dokuments mindert, geht OPSWAT Adaptive Sandbox Aether) das Problem aus einem grundlegend anderen Blickwinkel an: Sie führt eine tiefgehende Verhaltensanalyse jeder möglichen Dokumentstruktur innerhalb der Datei durch. Während die Deep CDR™-Technologie die Bedrohung beseitigt, bevor eine Datei den Benutzer erreicht,Sandbox Adaptive Sandbox die Datei in einer kontrollierten UmgebungSandbox und beobachtet genau, wozu sie eigentlich bestimmt ist.
Bei verketteten PDF-DateienSandbox Adaptive Sandbox auf die Interpretation eines einzelnen Parsers. Stattdessen führt es eine strukturbewusste Analyse durch, um festzustellen, dass die Datei tatsächlich mehrere gültige PDF-Dokumente enthält, die aneinandergehängt wurden. Dies verhindert direkt, dass Angreifer bösartige Inhalte hinter Parser-Inkonsistenzen verstecken. Die Analyse erfolgt in drei Stufen:
1.Extraktion: Jedes eingebettete PDF-Dokument wird einzeln aus der verketteten Struktur extrahiert. Keine Dokumentebene wird als maßgeblich behandelt. Jeder im Binärstrom vorhandene Abschnitt wird identifiziert und zur unabhängigen Überprüfung isoliert.

2.Analyse: Jedes extrahierte Dokument wird unabhängig in einer kontrollierten, emulierten Umgebung analysiert. Adaptive Sandbox den InhaltSandbox , überwacht das Laufzeitverhalten und deckt jegliche böswillige Aktivität auf, einschließlich Netzwerkrückrufe, Skriptausführung, das Ablegen von Payloads und Versuche, die Rendering-Anwendung auszunutzen, unabhängig davon, aus welcher Dokumentebene das Verhalten stammt.

Korrelation: Die Ergebnisse jeder einzelnen Analyse werden mit der Originaldatei abgeglichen, wodurch ein einheitliches Ergebnis entsteht, das die tatsächliche Verhaltensabsicht des gesamten zusammengefügten Dokuments widerspiegelt. Die aus jeder Ebene extrahierten Indikatoren für eine Kompromittierung werden in einem einzigen forensischen Bericht zusammengefasst, der die Bedrohungsanalyse, die Reaktion auf Vorfälle und die Arbeitsabläufe im SOC unterstützt.

Das Ergebnis ist ein lückenloses Analysebild ohne blinde Flecken. Jedes eingebettete Dokument wird analysiert. Jede Objektkette wird überprüft. Es gibt keinen Spielraum für Tricks beim Parser. Ein Angreifer kann sich nicht darauf verlassen, dass eine Anwendung eine saubere Ebene erkennt, während eine bösartige Ebene ungeprüft bleibt, denn Adaptive Sandbox diesen UnterschiedSandbox . Es wird alles überprüft.

Mehrstufige Erkennung für umfassenden Schutz
Die Deep CDR™-Technologie undSandbox Adaptive Sandbox die Bedrohung durch verkettete PDF-Dateien aus entgegengesetzten RichtungenSandbox und lassen gemeinsam keinen Angriffsweg offen. Die Deep CDR™-Technologie beseitigt die Bedrohung, bevor die Datei zugestellt wird: Der Benutzer erhält ein strukturell sauberes Dokument ohne versteckte Abschnitte, ohne bösartige Links und ohne Objekte, die gegen die Richtlinien verstoßen. Adaptive Sandbox die Absicht der Bedrohung vor oder während der ZustellungSandbox : Jede Dokumentebene wird ausgeführt, jedes Verhalten beobachtet und jeder Indikator für eine Kompromittierung extrahiert und aufgezeichnet.
Für Unternehmen, die in risikoreichen Umgebungen tätig sind, ist diese Kombination besonders wirkungsvoll. Die Deep CDR™-Technologie stellt sicher, dass Dokumente, die den Benutzer erreichen, keine versteckte Logik ausführen können.Sandbox Adaptive Sandbox dass die Verhaltensabsicht jedes Dokuments, einschließlich jeder Ebene einer verketteten Datei, erkannt wird. Keine der beiden Technologien benötigt Vorkenntnisse über die jeweilige Angriffstechnik, um wirksam zu sein. Beide basieren auf der Struktur der Datei und dem Verhalten ihres Inhalts, nicht auf bekannten Signaturen oder Bedrohungsdaten.
Abschließende Überlegungen
Die Angriffstechnik mit verketteten PDF-Dateien veranschaulicht eine Art von Bedrohung, für deren Abwehr die auf Erkennung basierende Sicherheit nicht ausgelegt ist. Es gibt keine Malware-Signatur, die man finden könnte. Es gibt keinen Exploit, den man erkennen könnte. Es handelt sich lediglich um eine strukturelle Anordnung eines legitimen Dateiformats, die dazu führt, dass verschiedene Systeme unterschiedliche Inhalte erkennen.
Für IT-Manager und -Leiter ist die Auswirkung auf den Betrieb klar: Die derzeit eingesetzten Scan-Tools werten möglicherweise eine andere Version eines Dokuments aus als die, die die Benutzer öffnen.
Für Compliance- und Risikobeauftragte bedeutet dies eine Lücke in der Unternehmensführung: Der Prüfpfad für die Dateisicherheit spiegelt möglicherweise nicht den tatsächlich übermittelten Inhalt wider.
Für Führungskräfte der obersten Ebene sind die finanziellen Risiken erheblich: Die durchschnittlichen Kosten eines erfolgreichen Phishing-Angriffs belaufen sich mittlerweile auf über 4,88 Millionen US-Dollar, wobei Angriffe, die die üblichen Sicherheitsmaßnahmen umgehen, zu den teuersten in der Behebung zählen.
Für Rechts- und Unternehmensberater sowie Datenschutzbeauftragte stellen KI-Systeme, die auf der Grundlage verborgener Dokumentinhalte ohne menschliche Überprüfung oder Sicherheitskontrolle agieren, ein neu auftretendes und erhebliches Risiko dar.
OPSWAT CDR™-Technologie undSandbox Adaptive Sandbox diese Lücke aus beiden Richtungen. Die Deep CDR™-Technologie beseitigt die strukturellen Voraussetzungen, die solche Bedrohungen ermöglichen, indem sie die Dateistruktur überprüft, alle versteckten und widersprüchlichen Dokumentabschnitte entfernt und eine saubere, verifizierte Ausgabe neu generiert. So stellt sie sicher, dass jede Datei, die in die Umgebung gelangt, genau den Inhalt enthält, der geprüft wurde. Adaptive Sandbox dass nichts unüberprüft bleibt: Durch die Durchführung einer strukturbewussten Analyse über jede eingebettete Dokumentebene hinweg, die unabhängige Ausführung jeder Ebene und die Korrelation der Ergebnisse mit der Originaldatei deckt sie die Verhaltensabsichten von Bedrohungen auf, die kein Parser-Trick verbergen kann. Zusammen sorgen diese Technologien dafür, dass das, was Benutzer erhalten, sicher ist und dass die von Angreifern beabsichtigte Funktion der Datei vollständig verstanden wird.
Zusätzliche Ressourcen
- OPSWAT portfolio anzeigen
- Datenblatt herunterladen: Deep CDR™-Technologie und Adaptive Sandbox
