Project Glasswing zeigt das neue Problem: KI findet Schwachstellen schneller, als Unternehmen sie schließen können

Clara

26. Mai 2026 4 min read

Project Glasswing zeigt das neue Problem: KI findet Schwachstellen schneller, als Unternehmen sie schließen können

Viele Security-Programme sind darauf ausgelegt, Schwachstellen überhaupt erst sichtbar zu machen: Scanner ausrollen, CVEs priorisieren, Findings in Tickets überführen. Lange lag hier der Engpass. Die jüngsten Zahlen aus Anthropics Project Glasswing deuten darauf hin, dass sich dieser Engpass verlagert. Wenn KI-Modelle binnen kurzer Zeit tausende potenzielle Schwachstellen in kritischer Software finden, wird nicht mehr allein Detection zum Problem. Entscheidend werden Verifikation, Disclosure, Patch-Design und Deployment.

Für Unternehmen ist das kein theoretisches Thema. Ein weiteres Tool, das noch mehr Findings erzeugt, verbessert die Sicherheitslage nur dann, wenn die Organisation diese Hinweise schnell genug prüfen und beheben kann. Sonst entsteht ein neuer Rückstau: mehr bekannte Risiken, mehr Priorisierungsdruck und mehr Verantwortung — ohne dass produktive Systeme schneller sicherer werden.

Was Anthropic gemeldet hat

Anthropic veröffentlichte am 22. Mai 2026 ein erstes Update zu Project Glasswing. Das Projekt startete im April mit dem Ziel, kritische Software besser vor zunehmend leistungsfähigen KI-gestützten Angriffswerkzeugen zu schützen. Rund 50 Partner erhalten dafür Zugang zu Claude Mythos Preview, einem nicht öffentlich verfügbaren Frontier-Modell für Security-Analysen. Zu den ursprünglichen Glasswing-Partnern zählen unter anderem AWS, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, die Linux Foundation, Microsoft, NVIDIA und Palo Alto Networks.

Die Kernmeldung: Anthropic und seine Partner haben Mythos Preview seit Projektstart genutzt, um mehr als zehntausend hoch oder kritisch eingestufte Schwachstellen in systemisch wichtiger Software zu finden. Besonders relevant sind die Daten zur Open-Source-Analyse. Anthropic zufolge wurden mehr als 1.000 Open-Source-Projekte gescannt. Mythos Preview stufte dabei 6.202 Findings als hoch oder kritisch ein; über alle Schweregrade hinweg nennt Anthropic 23.019 Findings.

Entscheidend ist die anschließende Prüfung. Von 1.752 hoch oder kritisch bewerteten Findings bestätigten Prüfer laut Anthropic 90,6 Prozent als echte Treffer. 62,4 Prozent, also 1.094 Findings, wurden nach der Prüfung tatsächlich als hoch oder kritisch bestätigt. Anthropic leitet daraus ab, dass das Modell bei unveränderten Triageraten auf fast 3.900 hoch oder kritisch eingestufte Open-Source-Schwachstellen zusteuern könnte — selbst ohne zusätzliche neue Scans.

Warum die Zahlen nicht einfach „mehr Scanner-Rauschen“ bedeuten

Security-Teams kennen False Positives. Hohe Finding-Zahlen allein überzeugen deshalb selten. In diesem Fall ist die Lage differenzierter. Anthropic beschreibt einen mehrstufigen Prozess: Modellfund, unabhängige Prüfung durch Security-Research-Firmen oder Anthropic selbst, Koordination mit Maintainer-Teams und schließlich Veröffentlichung beziehungsweise Patching. The Hacker News berichtete am 23. Mai über dieselben Kernzahlen und ordnete ein, dass Project Glasswing bereits zu 97 Upstream-Patches und 88 Advisories geführt habe.

Ein Beispiel ist wolfSSL, eine weit verbreitete Kryptografie-Bibliothek. Anthropic schreibt, Mythos Preview habe eine inzwischen gepatchte Schwachstelle identifiziert, über die ein Angreifer Zertifikate fälschen könnte. Die Schwachstelle wurde als CVE-2026-5194 registriert. Anthropic kündigte eine vollständige technische Analyse an; bis dahin sollten Unternehmen die Details nicht überinterpretieren. Dennoch zeigt der Fall, warum solche Modelle ernst zu nehmen sind: Es geht nicht um akademische Test-Bugs, sondern um Code, der indirekt in vielen Produkten und Geräten produktionsrelevant sein kann.

Der eigentliche Branchenkontext: Patch-Kapazität wird knapp

Die Glasswing-Zahlen passen zu einem breiteren Trend. KI-gestützte Codeanalyse, autonome Pentest-Systeme und spezialisierte Cyber-Modelle senken die Kosten der Schwachstellensuche. Für Verteidiger ist das wertvoll. Gleichzeitig steigt der operative Druck auf Hersteller, Open-Source-Maintainer und Unternehmens-IT.

Anthropic beschreibt den Engpass selbst klar: Früher hing Fortschritt in der Softwaresicherheit stark davon ab, wie schnell neue Schwachstellen gefunden wurden. Heute hängt er zunehmend davon ab, wie schnell diese Schwachstellen verifiziert, gemeldet und gepatcht werden können. Das ist ein grundlegender Unterschied. Detection lässt sich relativ schnell skalieren, indem Unternehmen Tools einkaufen. Patch-Qualität skaliert langsamer. Sie braucht Architekturverständnis, Regressionstests, Release-Prozesse, Abhängigkeitsanalyse und geeignete Betriebsfenster.

Für Open Source ist diese Verschiebung besonders heikel. Viele kritische Bibliotheken werden von kleinen Teams gepflegt. Wenn KI-Systeme massenhaft valide Findings liefern, entstehen daraus nicht automatisch massenhaft sichere Patches. Maintainer müssen Reports verstehen, Exploitbarkeit bewerten, Fixes entwickeln, Kompatibilität sichern und koordinierte Veröffentlichungen planen. Genau an dieser Stelle kann gut gemeinte KI-gestützte Security zur zusätzlichen Belastung werden.

Konkrete Implikationen für Unternehmen

Erstens sollten Unternehmen ihre Kennzahlen im Vulnerability Management anpassen. Die relevante Frage lautet nicht mehr nur, wie viele Schwachstellen erkannt werden. Entscheidend ist, wie schnell verifizierte, ausnutzbare oder geschäftskritische Schwachstellen den gesamten Prozess durchlaufen. Sinnvolle Kennzahlen sind Zeit bis zur Triage, Zeit bis zur Entscheidung, Zeit bis zum Patch-Test und Zeit bis zum produktiven Rollout.

Zweitens braucht Dependency-Management eine stärkere Priorisierung nach Geschäftsrelevanz. Wenn ein AI-Scanner tausende Findings in Open-Source-Komponenten findet, muss klar sein, welche Bibliotheken in welchen Produkten, Containern, Appliances oder SaaS-Diensten tatsächlich genutzt werden. Ohne Software Bill of Materials, Runtime-Inventar und klare Ownership wird jedes neue Advisory zum Suchspiel.

Drittens sollten Unternehmen ihre Patch-Fenster realistischer planen. Kritische kryptografische Bibliotheken, Browser-Komponenten, Container-Basisimages, VPN- und Edge-Systeme gehören nicht in dieselbe Warteschlange wie interne Low-Risk-Anwendungen. Wer internetnahe Systeme weiterhin monatlich oder quartalsweise patcht, gerät durch KI-beschleunigte Schwachstellenforschung zunehmend unter Druck.

Viertens müssen AI-Security-Findings reproduzierbar dokumentiert werden. Ein Modellhinweis reicht nicht für eine Change-Freigabe. Teams brauchen minimal reproduzierbare Testfälle, betroffene Versionen, Exploit-Annahmen, eine nachvollziehbare Schweregradbegründung und klare Rollback-Pfade. Sonst steigt sowohl das Risiko falscher Priorisierung als auch das Risiko instabiler Schnellschüsse.

Risiken und Limitierungen

Trotz der hohen Trefferzahlen bleibt Vorsicht angebracht. Anthropic veröffentlicht Mythos Preview nicht allgemein, weil leistungsfähige Vulnerability-Discovery-Modelle dual-use sind. Dieselben Fähigkeiten, die Verteidigern helfen, können Angreifer bei der Suche nach Zero-Days unterstützen. Auch die Glasswing-Zahlen sind frühe Projektzahlen. Sie hängen von Projektauswahl, Scoping, Triage-Prozess und Bewertungskriterien ab.

Zudem ist ein bestätigtes Finding nicht automatisch ein akuter Unternehmensnotfall. Exploitbarkeit hängt von Konfiguration, Erreichbarkeit, Kompilierungsoptionen, Datenflüssen und vorhandenen Kontrollen ab. Umgekehrt können scheinbar indirekte Bibliotheksfehler sehr relevant werden, wenn sie in Edge-Produkten oder Authentifizierungslogik landen. Genau deshalb braucht es kontextbasierte Priorisierung statt reiner CVSS-Automatik.

Fazit

Project Glasswing ist weniger eine einzelne Produktmeldung als ein Frühindikator für die nächste Phase der Cybersecurity. KI kann Schwachstellen schneller sichtbar machen. Der Sicherheitsgewinn entsteht aber erst, wenn Unternehmen die nachgelagerte Kette beherrschen: Inventar, Triage, koordinierte Offenlegung, Patch-Engineering, Tests und Rollout.

Die praktische Lehre ist klar: Wer nur Detection automatisiert, produziert unter Umständen einen größeren Rückstau. Wer dagegen Patch-Prozesse, Dependency-Transparenz und Entscheidungswege beschleunigt, kann aus KI-gestützter Schwachstellensuche einen echten Verteidigungsvorteil ziehen.

Quellen: Anthropic Research, „Project Glasswing: An initial update“, 22. Mai 2026; Anthropic, „Project Glasswing“, April 2026; The Hacker News, „Claude Mythos AI Finds 10,000 High-Severity Flaws in Widely Used Software“, 23. Mai 2026.