Claude Opus 4.6 Performance-Einbruch Mittelstand

Ihr ERP-Anbieter tauscht über Nacht das Datenbank-Backend aus. Die Oberfläche sieht gleich aus, aber Abfragen brauchen doppelt so lang und Berichte liefern lückenhafte Ergebnisse. Kein Changelog, keine Ankündigung. Genau das passiert gerade bei Anthropics Flaggschiff-Modell Claude Opus 4.6 – und es betrifft jeden, der KI-gestützte Entwicklung oder Automatisierung produktiv einsetzt. Dieses Thema fällt direkt in meine KI & Automatisierungs-Beratung für den Mittelstand.

Denktiefe im freien Fall: Die Performance-Daten zu Claude Opus 4.6

Am 2. April 2026 hat Stella Laurenzo, Senior Director AI bei AMD, auf GitHub Issue #42796 eine detaillierte Analyse veröffentlicht. Keine Meinung, sondern Daten: 6.852 Sessions, 234.760 Tool Calls, 17.871 Thinking Blocks. Die Ergebnisse sind eindeutig.

Metrik	Vorher	Nachher	Veränderung
Mediane Denktiefe (Zeichen)	2.200	720	−67 %
Read:Edit-Verhältnis	6,6	2,0	−70 %
Blind Edits (Edits ohne vorheriges Lesen)	6,2 %	33,7 %	+444 %

Was bedeutet das konkret? Der Agent liest Dateien seltener, bevor er sie bearbeitet. Er denkt kürzer nach, bevor er antwortet. Ein Drittel aller Code-Änderungen erfolgt blind, ohne den bestehenden Code gelesen zu haben. Das Read:Edit-Verhältnis (ein Maß dafür, wie gründlich der Agent arbeitet) ist von 6,6 auf 2,0 eingebrochen. AMD hat daraufhin den Anbieter gewechselt.

Adaptive Thinking und leise Parameter-Änderungen

Was ist passiert? Anthropic hat zwei Änderungen vorgenommen, die zusammen den Leistungseinbruch erklären.

9. Februar 2026: Einführung von “Adaptive Thinking”. Das Modell passt seine Denktiefe automatisch an die wahrgenommene Komplexität der Aufgabe an. Klingt vernünftig, hat aber einen Haken: Das Modell unterschätzt regelmäßig die Komplexität realer Aufgaben.

3. März 2026: Die Standard-Denkanstrengung wurde leise von “high” auf “medium” umgestellt. Keine Ankündigung, kein Changelog-Eintrag. Wer nicht aktiv die Release Notes auf GitHub verfolgt, hat davon nichts mitbekommen.

Das ist vergleichbar mit einem Zulieferer, der still und leise das Material wechselt. Sie haben Stahlgüte X bestellt und geliefert bekommen. Die nächste Charge sieht identisch aus, aber die Tragfähigkeit hat abgenommen. Das Bauteil versagt erst unter Last.

Bestätigte Änderung: Anthropic-Mitarbeiter Boris Cherny hat zusätzlich einen Bug bestätigt, bei dem das Modell in bestimmten Fällen null Thinking Tokens erzeugt – also komplett ohne Nachdenken antwortet.

Der Mietwagen-Tausch: Modell-Swaps ohne Vorwarnung

Die Denktiefe ist nur ein Teil des Problems. Auf GitHub dokumentieren die Issues #30350, #31480 und #19468 einen weiteren Vorfall: Nutzer, die Opus angefordert haben, bekamen in bestimmten Fällen Sonnet-Antworten. Das kleinere, günstigere Modell statt des bezahlten Premium-Modells.

Wer schon einmal einen Mietwagen gebucht hat, kennt die Situation. Sie reservieren einen BMW 5er, am Schalter steht ein 3er. Der Vermieter sagt: “Ist doch auch ein BMW.” Technisch korrekt, praktisch ein anderes Produkt. Bei Anthropic gab es für diese Swaps keine öffentliche Ankündigung und keinen Changelog-Eintrag. Der Preis des Max-Plans blieb unverändert bei 200 Dollar pro Monat.

Benchmark-Daten: Opus 4.6 hinter Sonnet und dem eigenen Vorgänger

Die Probleme lassen sich mit Daten belegen. Marginlab betreibt unter marginlab.ai/trackers/claude-code/ einen täglichen automatisierten Tracker, der KI-Coding-Modelle vergleicht. Das aktuelle Ranking:

Rang	Modell	Score	Status
1	Sonnet 4 (Mai 2025)	70	STBL (stabil)
3	Opus 4.5	68	STBL (stabil)
8	Opus 4.6	62	VOLA ALERT (volatil)

Das teuerste Modell landet auf Rang 8, hinter seinem eigenen Vorgänger und sogar hinter dem deutlich günstigeren Sonnet 4. Der Status “VOLA ALERT” bedeutet: Die Ergebnisse schwanken stark zwischen den Messtagen. Dazu kommen mehrere Status-Page-Incidents: 28. Februar, 31. März, 3.-4. April, 10. April.

In Reddit-Threads und GitHub-Diskussionen wiederholt sich ein Muster, das ich aus ERP-Projekten gut kenne: Nutzer melden Probleme, der Anbieter dementiert, Daten beweisen das Gegenteil, der Anbieter räumt teilweise ein, dann wiederholt sich der Zyklus.

Vendor Lock-in bei KI-Tools: Dasselbe Muster wie beim ERP

Für mich als Berater, der seit Jahren Mittelständler bei ERP-Auswahl und IT-Strategie begleitet, ist dieses Muster vertraut. Es ist exakt das gleiche Vendor-Lock-in-Problem, das ich in meinem Beitrag zum Cloud-Exit im Mittelstand beschrieben habe:

Initiale Begeisterung. Das Produkt überzeugt, die Entscheidung fällt schnell
Abhängigkeit wächst. Teams bauen Workflows um das Tool herum, Wechselkosten steigen
Leistung sinkt oder Konditionen ändern sich. Der Anbieter weiß, dass ein Wechsel teuer ist
Der Kunde hat keinen Hebel. Keine SLA für Output-Qualität, keine vertragliche Absicherung

Beim ERP-System heißt das: Jährliche Lizenzerhöhungen von 8-15 %, die vertraglich kaum verhandelbar sind. Bei KI-Tools heißt das: 200 Dollar pro Monat für ein Produkt, dessen Qualität nachweislich gesunken ist, ohne Preisanpassung nach unten.

Der Unterschied zum klassischen ERP-Lock-in ist die Geschwindigkeit. Ein ERP-System verschlechtert sich über Jahre. Bei KI-APIs kann sich die Leistung über Nacht ändern, weil ein Parameter auf dem Server umgestellt wird. Wer KI im Mittelstand produktiv einsetzt, muss dieses Risiko kennen.

Der Workaround: Was Sie heute tun können

Anthropic hat nach dem öffentlichen Druck eine Lösung bereitgestellt. In Claude Code können Sie die adaptive Denktiefe auf Maximum setzen:

# Option 1: Slash-Befehl in der Session
/effort max

# Option 2: Umgebungsvariable (dauerhaft)
export CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING=1

Das stellt das Verhalten auf das Niveau vor dem 3. März zurück. Es ist ein Pflaster, keine Lösung. Sie müssen aktiv einen Workaround anwenden, um die Leistung zu bekommen, für die Sie bezahlen. Und Sie müssen darauf vertrauen, dass Anthropic nicht den nächsten Parameter still umstellt. Wer sich grundsätzlich für den systematischen Umgang mit KI-Agenten interessiert, findet in meinem Beitrag zu Context Engineering mit GSD einen Ansatz, der solche Einzelpunktrisiken reduziert.

Fünf Empfehlungen gegen KI-Vendor-Lock-in im Mittelstand

Aus den Vorfällen lassen sich konkrete Handlungsempfehlungen ableiten:

KI-Abhängigkeit messen. Dokumentieren Sie, welche Geschäftsprozesse von welchem KI-Anbieter abhängen. Das ist die gleiche Übung wie eine ERP-Abhängigkeitsanalyse
Exit-Strategie definieren. Können Sie innerhalb von 30 Tagen auf einen alternativen Anbieter wechseln? Falls nein, ist Ihre Abhängigkeit zu hoch
Ergebnisqualität überwachen. Setzen Sie Benchmarks für Ihre konkreten Use Cases. Wenn die Qualität sinkt, wollen Sie das aus Ihren eigenen Daten wissen, nicht aus einem Reddit-Thread
Multi-Provider-Strategie prüfen. Wer kritische Workflows auf nur einem KI-Anbieter aufbaut, wiederholt den Fehler der Single-Vendor-ERP-Strategie
Vertragliche Absicherung fordern. SLAs für Output-Qualität gibt es heute noch nicht als Standard. Aber je mehr Unternehmen danach fragen, desto schneller wird sich das ändern

Für Shadow AI in Ihrem Unternehmen gilt das doppelt: Wenn Mitarbeiter eigene KI-Workflows auf einem einzigen Anbieter aufbauen, potenziert sich das Risiko.

Häufige Fragen zu Claude Opus 4.6 und KI-Performance

Was genau ist bei Claude Opus 4.6 passiert?

Anthropic hat am 9. Februar 2026 “Adaptive Thinking” eingeführt und am 3. März die Standard-Denkanstrengung von “high” auf “medium” gesenkt. Beides ohne prominente Ankündigung. Die Folge: 67 % weniger Denktiefe, ein Drittel aller Code-Edits erfolgt blind. Zusätzlich gab es dokumentierte Fälle, in denen statt des bezahlten Opus-Modells das günstigere Sonnet-Modell ausgeliefert wurde.

Betrifft mich das, wenn ich Claude nur über die Web-Oberfläche nutze?

Die dokumentierten Probleme betreffen primär Claude Code (das CLI-Tool für Entwickler) und die API. Die Web-Oberfläche nutzt ebenfalls Opus 4.6, aber die spezifischen Metriken wie Read:Edit-Verhältnis gelten dort nicht. Die reduzierte Denktiefe betrifft potenziell alle Nutzungswege.

Ist der Workaround mit /effort max dauerhaft?

Nein. Es ist eine aktive Einstellung, die Sie pro Session oder über eine Umgebungsvariable setzen müssen. Anthropic kann Parameter jederzeit serverseitig ändern. Eine langfristige Lösung wäre eine vertragliche Zusicherung der Modellqualität, die es bisher nicht gibt.

Wie schneidet Opus 4.6 im Vergleich zu Wettbewerbern ab?

Laut dem Marginlab-Tracker liegt Opus 4.6 mit Score 62 auf Rang 8, mit dem Status “VOLA ALERT” (volatil). Zum Vergleich: Sonnet 4 (Score 70, Rang 1) und der Vorgänger Opus 4.5 (Score 68, Rang 3) liefern stabilere Ergebnisse zu niedrigeren Kosten.

Nächster Schritt

Sie setzen KI-Tools produktiv ein und wollen Ihre Anbieterabhängigkeit realistisch bewerten? Ich mache die Bestandsaufnahme und entwickle mit Ihnen eine Multi-Provider-Strategie, die nicht beim ersten API-Update wackelt.

→ Erstgespräch vereinbaren – kostenfrei

→ Oder zuerst mehr lesen: KI & Automatisierung für den Mittelstand

Claude Opus 4.6 Performance-Einbruch: Was der Mittelstand daraus lernen muss

Denktiefe im freien Fall: Die Performance-Daten zu Claude Opus 4.6

Adaptive Thinking und leise Parameter-Änderungen

Der Mietwagen-Tausch: Modell-Swaps ohne Vorwarnung

Benchmark-Daten: Opus 4.6 hinter Sonnet und dem eigenen Vorgänger

Vendor Lock-in bei KI-Tools: Dasselbe Muster wie beim ERP

Der Workaround: Was Sie heute tun können

Fünf Empfehlungen gegen KI-Vendor-Lock-in im Mittelstand

Häufige Fragen zu Claude Opus 4.6 und KI-Performance

Nächster Schritt

Interesse geweckt?

Claude Opus 4.6 Performance-Einbruch: Was der Mittelstand daraus lernen muss

Denktiefe im freien Fall: Die Performance-Daten zu Claude Opus 4.6

Adaptive Thinking und leise Parameter-Änderungen

Der Mietwagen-Tausch: Modell-Swaps ohne Vorwarnung

Benchmark-Daten: Opus 4.6 hinter Sonnet und dem eigenen Vorgänger

Vendor Lock-in bei KI-Tools: Dasselbe Muster wie beim ERP

Der Workaround: Was Sie heute tun können

Fünf Empfehlungen gegen KI-Vendor-Lock-in im Mittelstand

Häufige Fragen zu Claude Opus 4.6 und KI-Performance

Nächster Schritt

Diesen Beitrag teilen

Interesse geweckt?