Am 26. März 2026 bestätigte Anthropic die Existenz von Claude Mythos – einem unveröffentlichten KI-Modell, das intern als "step change" in den Fähigkeiten beschrieben wird. Die Bestätigung erfolgte nicht durch eine geplante Ankündigung, sondern als Reaktion auf ein Datenleck: Rund 3.000 unveröffentlichte Assets, darunter ein Draft-Blogpost zur Mythos-Ankündigung, lagen in einem öffentlich durchsuchbaren, unverschlüsselten Datenspeicher. Die Ursache? Ein CMS-Toggle in falscher Position. Der Vorfall wirft grundlegende Fragen auf – nicht nur über Anthropics Deployment-Praktiken, sondern über die gesamte Industrie im Umgang mit Frontier AI Models.
Die technischen Fakten: Was geleakt wurde
Cybersecurity-Forscher Roy Paz (LayerX Security) und Alexandre Pauwels (University of Cambridge) entdeckten unabhängig voneinander den öffentlich zugänglichen Datenspeicher. Fortune berichtete als erstes Medium über den Fund. Anthropic nutzt ein off-the-shelf Content Management System für seinen Blog, bei dem digitale Assets standardmäßig auf "public" gesetzt werden – es sei denn, User ändern diese Einstellung manuell. In diesem Fall geschah das nicht.
Die geleakten Dokumente enthielten weit mehr als nur technische Spezifikationen. Ein Draft-Blogpost beschrieb Claude Mythos (intern auch "Capybara" genannt) als "by far the most powerful AI model we've ever developed". Das Modell erreicht laut dem Leak "dramatically higher scores" in Software-Coding, akademischem Reasoning und Cybersecurity-Tests verglichen mit Claude Opus 4.6, dem bisherigen Flaggschiff-Modell.
Besonders brisant: Die internen Assessments beschreiben Mythos als "unprecedented cybersecurity risk" und attestieren dem Modell, "currently far ahead of any other AI model in cyber capabilities" zu sein. Anthropic plant laut dem Draft eine gestaffelte Freigabe, beginnend mit Early-Access-Kunden – explizit mit Fokus auf Cyber-Defender, um diesen einen "head start" zu geben, bevor die Technologie allgemein verfügbar wird.
Der Kontext: AI-Modelle als Dual-Use-Technologie
Der Mythos-Leak reiht sich in eine Serie von Vorfällen ein, die eine fundamentale Wahrheit über moderne Frontier AI Models demonstrieren: Sie sind Dual-Use-Technologie par excellence. Was Verteidigern hilft, Zero-Day-Vulnerabilities zu finden, kann Angreifern denselben Vorteil verschaffen.
Die Timeline ist aufschlussreich:
Februar 2026: OpenAI released GPT-5.3-Codex und klassifizierte es als erstes Modell mit "High Cybersecurity Capability" unter seinem Preparedness Framework. OpenAI trainierte das Modell explizit darauf, Software-Vulnerabilities zu identifizieren.
Ebenfalls Februar 2026: Anthropic veröffentlichte Claude Opus 4.6 und dokumentierte, dass das Modell über 500 high-severity Zero-Day-Vulnerabilities in Production-Open-Source-Codebases fand – einige davon Jahrzehnte alt, trotz Expert-Review und Millionen Stunden Fuzzer-CPU-Zeit. Eine Vulnerability erforderte konzeptuelles Verständnis des LZW-Kompressionsalgorithmus – eine Reasoning-Klasse, die kein Fuzzer replizieren kann.
November 2025: Anthropic's Misuse Report dokumentierte, dass GTG-1002, eine chinesische staatlich gesponserte Hacking-Gruppe, 80-90% autonome taktische Execution mit Claude über circa 30 Targets erreichte – darunter Tech-Companies, Finanzinstitutionen und Regierungsbehörden. Anthropic entdeckte die koordinierte Kampagne erst nachträglich, sperrte die involvierten Accounts und informierte betroffene Organisationen.
Februar 2026: Amazon Web Services Security Blog dokumentierte einen einzelnen, finanziell motivierten Threat Actor mit low-to-medium baseline skill, der commercial AI services nutzte, um über 600 FortiGate-Firewall-Devices in 55 Ländern innerhalb von 38 Tagen zu kompromittieren. Der Actor nutzte AI für Attack Planning, Tool Development und Lateral Movement. Amazon CISO CJ Moses: "The volume and variety of custom tooling would typically indicate a well-resourced development team. Instead, a single actor or very small group generated this entire toolkit through AI-assisted development."
Die entscheidende Variable: Scaffolding, nicht Base Model Capability
Die interessanteste Analyse zum Mythos-Leak kommt nicht von Anthropic selbst, sondern von Jacob Krell (Suzu Labs) in einem Blogpost vom 27. März 2026. Krells zentrale These: Das "unprecedented risk"-Framing ist irreführend, weil die Base Model Capability bereits seit über einem Jahr ausreichend ist. Die entscheidende Variable war und ist das "Scaffolding" – die Rules, Methodology, Tool Integrations und Execution Harnesses, die um ein Modell herum gebaut werden.
Die Evidenz ist überzeugend:
DARPA AI Cyber Challenge 2025: Vier Open-Source Cyber Reasoning Systems fanden 18 reale, non-synthetic Vulnerabilities in Production-Software während der Finalrunde – sechs davon previously unknown Zero-Days. Vulnerability Identification sprang von 37% (Semifinal) auf 77% (Final). Durchschnittliche Cost per Finding: $152. Die Base Models in diesen Systemen waren commercial available. Das Scaffolding – structured workflows, tool integrations, verification pipelines – produzierte das Ergebnis.
Hack The Box: Ein AI Agent gewann die Neurogrid CTF mit 41 von 45 Flags und $50.000 Prize Pool. PentestGPT zeigte 228,6% Improvement in Task Completion über Baseline Models. Wieder: Die Agentic Architecture, Tool Integrations und Methodology waren der Differentiator, nicht die Base Model Intelligence.
Krells Argumentation: Ein Model mit no scaffolding ist ein blunt instrument. Es kann Fragen über Vulnerabilities beantworten, Code-Snippets generieren, Documentation zusammenfassen. Das ist nützlich, aber produziert nicht die dokumentierten Outcomes. Die kommen von structured agentic systems, wo das Model innerhalb eines Frameworks operiert, das curated methodology, constrained tool access, structured workflows und Data Sources bereitstellt.
Investment-Implikationen: Die Scaffolding-Economy
Wenn Krells These stimmt – und die Evidenz spricht dafür – dann verschiebt sich der Investment-Fokus dramatisch. Base Model Capability wird zur Commodity. Der Wert liegt im Scaffolding-Design.
Das erklärt mehrere aktuelle Funding-Trends:
XBow: $120M Series C im Februar 2026 für autonome Offensive Security. Unicorn-Status. Der Pitch: Scaffolding für Continuous Penetration Testing.
RunSybil + RAVEN.IO: $60M in 48 Stunden für AI-gesteuerte Application Security im März 2026. Beide Companies verkaufen nicht Base Models, sondern curated methodologies und execution harnesses.
Non-Human Identity Management: $177M in 5 Tagen (März 2026) für eine Kategorie, die erst 18 Monate alt ist. Der Use Case: Scaffolding für AI Agents, die mit credentials operieren, ohne diese zu exponieren.
Die Pattern Recognition ist klar: Investoren betten nicht auf bessere Models, sondern auf bessere Frameworks, die Models nutzbar machen.
Die Policy-Falle: Base Model Restriction vs. Scaffolding Governance
Der Mythos-Leak provoziert reflexartig Calls für stärkere Regulation von Frontier AI Models. Krell argumentiert, dass dieser Reflex kontraproduktiv ist:
Erstens: Open-Weight Models mit no safety controls sind bereits widely available. Fine-tuned Variants optimiert für Offensive Use zirkulieren in Underground Communities. Foreign-hosted APIs operieren außerhalb U.S.- und EU-Regulatory Frameworks. Base Model Capability existiert regardless of restrictions auf legitimate access channels.
Zweitens: Regulation, die Access für Cybersecurity Professionals limitiert, reduziert nicht das total offensive potential im Ecosystem. Sie konzentriert es in den Händen derer, die willing sind, außerhalb der Rules zu operieren.
Drittens: Security Professionals, die aus controlled, auditable ecosystems gedrängt werden, migrieren zu less regulated alternatives – open-weight models with no guardrails, foreign-hosted APIs with no audit trail, underground fine-tunes with no safety layer. Und kritisch: Scaffolding built without methodology, tool boundaries oder verification pipelines, die legitimate ecosystems bereitstellen.
Krells Vorschlag: Govern scaffolding, nicht base models. Require methodology documentation, tool boundary enforcement, audit trails für agentic systems. Das adressiert die actual variable.
Was Organisationen jetzt tun sollten
Der Mythos-Leak ändert nichts an der Threat Landscape, die bereits visible war. Aber er compressed die Timeline für Organisationen, die noch debattierten, ob AI Cyber Capability real ist. Sie ist real. Die Frage ist execution.
Erstens: Invest in scaffolding design. Das Modell ist commodity. Die Methodology, Tool Integrations, curated data sources und Execution Harnesses darum herum sind der Differentiator.
Zweitens: Build AI-assisted detection, response und threat hunting capabilities now. Die Offensive Side wartet nicht. Jeden Monat Delay verbreitert den Gap zwischen dem, was Defenders tun können, und dem, was Adversaries bereits tun.
Drittens: Deployment Security bleibt notwendig – Sandboxing, Monitoring, Access Governance. Aber das ist separate concern vom Scaffolding, das determiniert, was das Model accomplish kann. Both matter. Sie lösen different problems.
Viertens: Die Policy Conversation muss aufholen zur technical reality. Das Modell ist die Engine. Das Scaffolding ist das Vehicle. Regulating the engine while ignoring the vehicle misst, wo das Cybersecurity Potential tatsächlich determiniert wird.
Fazit: Der eigentliche Skandal ist kein Skandal
Der Mythos-Leak durch einen CMS-Toggle in falscher Position ist peinlich für Anthropic. Aber der eigentliche Skandal ist kein Skandal: Die Capability war bereits da. Was Anthropic als "unprecedented" framte, war bereits von OpenAI öffentlich klassifiziert, von DARPA in Competition demonstrated, von Amazon in the wild dokumentiert, und von Anthropics eigenem Frontier Red Team mit dem existing Opus 4.6 Model bewiesen.
Der Leak exposed nicht eine neue Gefahr. Er exposed, dass die Gefahr bereits operational war – und dass die Industrie noch immer über die wrong variable debattiert. Base Models werden stärker, ja. Aber die Organizations, die in effective scaffolding investieren, werden die sein, die noch stehen, wenn die Headlines weiterziehen.
Der wahre Wettbewerb findet nicht auf der Ebene der Model Capability statt. Er findet auf der Ebene der Execution statt – und dort haben diejenigen den Vorteil, die verstehen, dass das Vehicle wichtiger ist als die Engine.
Quellen:
- Fortune, "Exclusive: Anthropic 'Mythos' AI model representing 'step change' in power revealed in data leak", Beatrice Nolan, 26. März 2026
- Security Boulevard / Suzu Labs, "Claude Mythos and the Cybersecurity Risk That Was Already Here", Jacob Krell, 27. März 2026
- OpenAI, "GPT-5.3-Codex System Card", 5. Februar 2026
- Anthropic, "Claude Code Security", Februar 2026
- Amazon Web Services Security Blog, "AI-Augmented Threat Actor Accesses FortiGate Devices at Scale", Februar 2026
- DARPA, "AI Cyber Challenge Marks Pivotal Inflection Point for Cyber Defense", 2025
- Anthropic Misuse Report (GTG-1002 disclosure), November 2025