Mythos Preview in der Praxis: Was Frontier-Modelle leisten – und wo es Grenzen braucht

In den letzten Wochen hat kaum ein Thema so viel Aufmerksamkeit erregt wie Mythos Preview von Anthropic. Wir wurden eingeladen, Mythos Preview im Rahmen von Project Glasswing zu verwenden, und haben die Lösung schon bald auf mehr als fünfzig unserer eigenen Repositorys angesetzt. Dabei haben wir Mythos und anderen LLM Live-Quellcode in kritischen Bereichen unserer Infrastruktur vorgelegt. Wir wollten sehen, was sie finden und wie sie funktionieren.

Die wichtigste Erkenntnis vorab: Mythos Preview stellt definitiv einen echten Fortschritt dar. Die heutige Performance von Mythos Preview ist mehr als eine bloße Verfeinerung dessen, wozu frühere allgemeine Frontier-Modelle in der Lage waren. Wir haben es mit einem neuartigen Werkzeug zu tun, das eine andere Art von Arbeit leistet als es bisher möglich war.

Zwei Funktionen sind dabei besonders aufgefallen. Zum einen die Erstellung einer Exploit-Kette: Ein echter Angriff stützt sich selten nur auf einen einzigen Fehler im System, vielmehr werden mehrere kleinere Elemente zu einem wirksamen Exploit verknüpft. Mythos Preview ist in der Lage, diese Einzelbausteine zu berücksichtigen und daraus abzuleiten, wie sie sich kombinieren lassen. Zum anderen die automatisierte Beweisführung: Das Modell schreibt Code, führt ihn aus, passt seine Hypothese bei Fehlern an und wiederholt den Prozess, bis ein Nachweis für eine Schwachstelle vorliegt. Während andere Frontier-Modelle zwar viele derselben Bugs identifizierten, konnten sie die Einzelteile nicht eindeutig zusammensetzen. Sie identifizierten einen interessanten Bug, verfassten eine durchdachte Erklärung, warum er von Bedeutung ist – und beließen es dann dabei. Die Argumentationskette blieb unvollendet, die Frage der Ausnutzbarkeit unbeantwortet.

Die direkte Verwendung des Modells in einem Programmier-Agenten erweist sich als gut geeignet für manuelle Untersuchungen, wenn Experten bereits eine Spur haben und eine zweite Meinung einholen möchten. Es ist jedoch das falsche Werkzeug für eine hohe Abdeckung: Ein Single-Stream-Agent führt jeweils nur eine Aufgabe aus, doch echte Codebasen erfordern viele Hypothesen zu zahlreichen Komponenten gleichzeitig. Stattdessen haben wir also eine mehrstufige Architektur mit spezialisierten Agenten für Erkundung, Validierung, Deduplizierung und Berichterstellung. Entscheidend dabei: Ein zweiter, unabhängiger Agent versucht aktiv, die Funde des ersten zu widerlegen. Zwei Agenten in bewusstem Widerspruch sind deutlich effektiver als ein einzelner Agent, der vorsichtig agiert.

Die meisten der Allgemeinheit zugänglichen Modelle wie Opus 4.7 oder GPT-5.5 weisen zusätzliche Schutzvorkehrungen auf, die einen Missbrauch verhindern sollen. Das von Anthropic bereitgestellte Mythos Preview-Modell verfügt über diese Einstellungen zwar nicht, widersetzt sich aber bestimmten Anfragen dennoch organisch. Der Unterschied liegt darin, dass diese organischen Verweigerungen zwar vorkommen, aber nicht konsequent genug umgesetzt werden, um sich als alleinige Grenzlinie zu eignen.

Jedes Frontier-Cybermodell, das künftig der breiten Öffentlichkeit zur Verfügung gestellt wird, muss über dieses grundlegende Verhalten hinaus zusätzliche Sicherheitsmaßnahmen umfassen. Denn: Die gleichen Funktionen, die uns dabei geholfen haben, Fehler in unserem eigenen Programmcode zu finden, erleichtern - in den falschen Händen - Angriffe auf jede Anwendung im Internet.


 

Mythos Preview in der Praxis: Was Frontier-Modelle leisten – und wo es Grenzen braucht

In den letzten Wochen hat kaum ein Thema so viel Aufmerksamkeit erregt wie Mythos Preview von Anthropic. Wir wurden eingeladen, Mythos Preview im Rahmen von Project Glasswing zu verwenden, und haben die Lösung schon bald auf mehr als fünfzig unserer eigenen Repositorys angesetzt. Dabei haben wir Mythos und anderen LLM Live-Quellcode in kritischen Bereichen unserer Infrastruktur vorgelegt. Wir wollten sehen, was sie finden und wie sie funktionieren.

Die wichtigste Erkenntnis vorab: Mythos Preview stellt definitiv einen echten Fortschritt dar. Die heutige Performance von Mythos Preview ist mehr als eine bloße Verfeinerung dessen, wozu frühere allgemeine Frontier-Modelle in der Lage waren. Wir haben es mit einem neuartigen Werkzeug zu tun, das eine andere Art von Arbeit leistet als es bisher möglich war.

Zwei Funktionen sind dabei besonders aufgefallen. Zum einen die Erstellung einer Exploit-Kette: Ein echter Angriff stützt sich selten nur auf einen einzigen Fehler im System, vielmehr werden mehrere kleinere Elemente zu einem wirksamen Exploit verknüpft. Mythos Preview ist in der Lage, diese Einzelbausteine zu berücksichtigen und daraus abzuleiten, wie sie sich kombinieren lassen. Zum anderen die automatisierte Beweisführung: Das Modell schreibt Code, führt ihn aus, passt seine Hypothese bei Fehlern an und wiederholt den Prozess, bis ein Nachweis für eine Schwachstelle vorliegt. Während andere Frontier-Modelle zwar viele derselben Bugs identifizierten, konnten sie die Einzelteile nicht eindeutig zusammensetzen. Sie identifizierten einen interessanten Bug, verfassten eine durchdachte Erklärung, warum er von Bedeutung ist – und beließen es dann dabei. Die Argumentationskette blieb unvollendet, die Frage der Ausnutzbarkeit unbeantwortet.

Die direkte Verwendung des Modells in einem Programmier-Agenten erweist sich als gut geeignet für manuelle Untersuchungen, wenn Experten bereits eine Spur haben und eine zweite Meinung einholen möchten. Es ist jedoch das falsche Werkzeug für eine hohe Abdeckung: Ein Single-Stream-Agent führt jeweils nur eine Aufgabe aus, doch echte Codebasen erfordern viele Hypothesen zu zahlreichen Komponenten gleichzeitig. Stattdessen haben wir also eine mehrstufige Architektur mit spezialisierten Agenten für Erkundung, Validierung, Deduplizierung und Berichterstellung. Entscheidend dabei: Ein zweiter, unabhängiger Agent versucht aktiv, die Funde des ersten zu widerlegen. Zwei Agenten in bewusstem Widerspruch sind deutlich effektiver als ein einzelner Agent, der vorsichtig agiert.

Die meisten der Allgemeinheit zugänglichen Modelle wie Opus 4.7 oder GPT-5.5 weisen zusätzliche Schutzvorkehrungen auf, die einen Missbrauch verhindern sollen. Das von Anthropic bereitgestellte Mythos Preview-Modell verfügt über diese Einstellungen zwar nicht, widersetzt sich aber bestimmten Anfragen dennoch organisch. Der Unterschied liegt darin, dass diese organischen Verweigerungen zwar vorkommen, aber nicht konsequent genug umgesetzt werden, um sich als alleinige Grenzlinie zu eignen.

Jedes Frontier-Cybermodell, das künftig der breiten Öffentlichkeit zur Verfügung gestellt wird, muss über dieses grundlegende Verhalten hinaus zusätzliche Sicherheitsmaßnahmen umfassen. Denn: Die gleichen Funktionen, die uns dabei geholfen haben, Fehler in unserem eigenen Programmcode zu finden, erleichtern - in den falschen Händen - Angriffe auf jede Anwendung im Internet.