Claude Opus 4.6 Performance-Einbruch: Was der Mittelstand daraus lernen muss

Claude Opus 4.6 verliert 67 % Denktiefe, Nutzer zahlen 200 Dollar fuer schlechtere Ergebnisse. Vendor Lock-in bei KI-Tools: 5 Empfehlungen fuer den Mittelstand.

Claude Opus 4.6 Performance-Einbruch: Was der Mittelstand daraus lernen muss

Ihr ERP-Anbieter tauscht über Nacht das Datenbank-Backend aus. Die Oberfläche sieht gleich aus, aber Abfragen brauchen doppelt so lang und Berichte liefern lückenhafte Ergebnisse. Kein Changelog, keine Ankündigung. Genau das passiert gerade bei Anthropics Flaggschiff-Modell Claude Opus 4.6 – und es betrifft jeden, der KI-gestützte Entwicklung oder Automatisierung produktiv einsetzt. Dieses Thema fällt direkt in meine KI & Automatisierungs-Beratung für den Mittelstand.

Denktiefe im freien Fall: Die Performance-Daten zu Claude Opus 4.6

Am 2. April 2026 hat Stella Laurenzo, Senior Director AI bei AMD, auf GitHub Issue #42796 eine detaillierte Analyse veröffentlicht. Keine Meinung, sondern Daten: 6.852 Sessions, 234.760 Tool Calls, 17.871 Thinking Blocks. Die Ergebnisse sind eindeutig.

MetrikVorherNachherVeränderung
Mediane Denktiefe (Zeichen)2.200720−67 %
Read:Edit-Verhältnis6,62,0−70 %
Blind Edits (Edits ohne vorheriges Lesen)6,2 %33,7 %+444 %

Was bedeutet das konkret? Der Agent liest Dateien seltener, bevor er sie bearbeitet. Er denkt kürzer nach, bevor er antwortet. Ein Drittel aller Code-Änderungen erfolgt blind, ohne den bestehenden Code gelesen zu haben. Das Read:Edit-Verhältnis (ein Maß dafür, wie gründlich der Agent arbeitet) ist von 6,6 auf 2,0 eingebrochen. AMD hat daraufhin den Anbieter gewechselt.

Adaptive Thinking und leise Parameter-Änderungen

Was ist passiert? Anthropic hat zwei Änderungen vorgenommen, die zusammen den Leistungseinbruch erklären.

9. Februar 2026: Einführung von “Adaptive Thinking”. Das Modell passt seine Denktiefe automatisch an die wahrgenommene Komplexität der Aufgabe an. Klingt vernünftig, hat aber einen Haken: Das Modell unterschätzt regelmäßig die Komplexität realer Aufgaben.

3. März 2026: Die Standard-Denkanstrengung wurde leise von “high” auf “medium” umgestellt. Keine Ankündigung, kein Changelog-Eintrag. Wer nicht aktiv die Release Notes auf GitHub verfolgt, hat davon nichts mitbekommen.

Das ist vergleichbar mit einem Zulieferer, der still und leise das Material wechselt. Sie haben Stahlgüte X bestellt und geliefert bekommen. Die nächste Charge sieht identisch aus, aber die Tragfähigkeit hat abgenommen. Das Bauteil versagt erst unter Last.

Bestätigte Änderung: Anthropic-Mitarbeiter Boris Cherny hat zusätzlich einen Bug bestätigt, bei dem das Modell in bestimmten Fällen null Thinking Tokens erzeugt – also komplett ohne Nachdenken antwortet.

Der Mietwagen-Tausch: Modell-Swaps ohne Vorwarnung

Die Denktiefe ist nur ein Teil des Problems. Auf GitHub dokumentieren die Issues #30350, #31480 und #19468 einen weiteren Vorfall: Nutzer, die Opus angefordert haben, bekamen in bestimmten Fällen Sonnet-Antworten. Das kleinere, günstigere Modell statt des bezahlten Premium-Modells.

Wer schon einmal einen Mietwagen gebucht hat, kennt die Situation. Sie reservieren einen BMW 5er, am Schalter steht ein 3er. Der Vermieter sagt: “Ist doch auch ein BMW.” Technisch korrekt, praktisch ein anderes Produkt. Bei Anthropic gab es für diese Swaps keine öffentliche Ankündigung und keinen Changelog-Eintrag. Der Preis des Max-Plans blieb unverändert bei 200 Dollar pro Monat.

Benchmark-Daten: Opus 4.6 hinter Sonnet und dem eigenen Vorgänger

Die Probleme lassen sich mit Daten belegen. Marginlab betreibt unter marginlab.ai/trackers/claude-code/ einen täglichen automatisierten Tracker, der KI-Coding-Modelle vergleicht. Das aktuelle Ranking:

RangModellScoreStatus
1Sonnet 4 (Mai 2025)70STBL (stabil)
3Opus 4.568STBL (stabil)
8Opus 4.662VOLA ALERT (volatil)

Das teuerste Modell landet auf Rang 8, hinter seinem eigenen Vorgänger und sogar hinter dem deutlich günstigeren Sonnet 4. Der Status “VOLA ALERT” bedeutet: Die Ergebnisse schwanken stark zwischen den Messtagen. Dazu kommen mehrere Status-Page-Incidents: 28. Februar, 31. März, 3.-4. April, 10. April.

In Reddit-Threads und GitHub-Diskussionen wiederholt sich ein Muster, das ich aus ERP-Projekten gut kenne: Nutzer melden Probleme, der Anbieter dementiert, Daten beweisen das Gegenteil, der Anbieter räumt teilweise ein, dann wiederholt sich der Zyklus.

Vendor Lock-in bei KI-Tools: Dasselbe Muster wie beim ERP

Für mich als Berater, der seit Jahren Mittelständler bei ERP-Auswahl und IT-Strategie begleitet, ist dieses Muster vertraut. Es ist exakt das gleiche Vendor-Lock-in-Problem, das ich in meinem Beitrag zum Cloud-Exit im Mittelstand beschrieben habe:

  1. Initiale Begeisterung. Das Produkt überzeugt, die Entscheidung fällt schnell
  2. Abhängigkeit wächst. Teams bauen Workflows um das Tool herum, Wechselkosten steigen
  3. Leistung sinkt oder Konditionen ändern sich. Der Anbieter weiß, dass ein Wechsel teuer ist
  4. Der Kunde hat keinen Hebel. Keine SLA für Output-Qualität, keine vertragliche Absicherung

Beim ERP-System heißt das: Jährliche Lizenzerhöhungen von 8-15 %, die vertraglich kaum verhandelbar sind. Bei KI-Tools heißt das: 200 Dollar pro Monat für ein Produkt, dessen Qualität nachweislich gesunken ist, ohne Preisanpassung nach unten.

Der Unterschied zum klassischen ERP-Lock-in ist die Geschwindigkeit. Ein ERP-System verschlechtert sich über Jahre. Bei KI-APIs kann sich die Leistung über Nacht ändern, weil ein Parameter auf dem Server umgestellt wird. Wer KI im Mittelstand produktiv einsetzt, muss dieses Risiko kennen.

Der Workaround: Was Sie heute tun können

Anthropic hat nach dem öffentlichen Druck eine Lösung bereitgestellt. In Claude Code können Sie die adaptive Denktiefe auf Maximum setzen:

# Option 1: Slash-Befehl in der Session
/effort max

# Option 2: Umgebungsvariable (dauerhaft)
export CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING=1

Das stellt das Verhalten auf das Niveau vor dem 3. März zurück. Es ist ein Pflaster, keine Lösung. Sie müssen aktiv einen Workaround anwenden, um die Leistung zu bekommen, für die Sie bezahlen. Und Sie müssen darauf vertrauen, dass Anthropic nicht den nächsten Parameter still umstellt. Wer sich grundsätzlich für den systematischen Umgang mit KI-Agenten interessiert, findet in meinem Beitrag zu Context Engineering mit GSD einen Ansatz, der solche Einzelpunktrisiken reduziert.

Fünf Empfehlungen gegen KI-Vendor-Lock-in im Mittelstand

Aus den Vorfällen lassen sich konkrete Handlungsempfehlungen ableiten:

  1. KI-Abhängigkeit messen. Dokumentieren Sie, welche Geschäftsprozesse von welchem KI-Anbieter abhängen. Das ist die gleiche Übung wie eine ERP-Abhängigkeitsanalyse
  2. Exit-Strategie definieren. Können Sie innerhalb von 30 Tagen auf einen alternativen Anbieter wechseln? Falls nein, ist Ihre Abhängigkeit zu hoch
  3. Ergebnisqualität überwachen. Setzen Sie Benchmarks für Ihre konkreten Use Cases. Wenn die Qualität sinkt, wollen Sie das aus Ihren eigenen Daten wissen, nicht aus einem Reddit-Thread
  4. Multi-Provider-Strategie prüfen. Wer kritische Workflows auf nur einem KI-Anbieter aufbaut, wiederholt den Fehler der Single-Vendor-ERP-Strategie
  5. Vertragliche Absicherung fordern. SLAs für Output-Qualität gibt es heute noch nicht als Standard. Aber je mehr Unternehmen danach fragen, desto schneller wird sich das ändern

Für Shadow AI in Ihrem Unternehmen gilt das doppelt: Wenn Mitarbeiter eigene KI-Workflows auf einem einzigen Anbieter aufbauen, potenziert sich das Risiko.

Häufige Fragen zu Claude Opus 4.6 und KI-Performance

Was genau ist bei Claude Opus 4.6 passiert?

Anthropic hat am 9. Februar 2026 “Adaptive Thinking” eingeführt und am 3. März die Standard-Denkanstrengung von “high” auf “medium” gesenkt. Beides ohne prominente Ankündigung. Die Folge: 67 % weniger Denktiefe, ein Drittel aller Code-Edits erfolgt blind. Zusätzlich gab es dokumentierte Fälle, in denen statt des bezahlten Opus-Modells das günstigere Sonnet-Modell ausgeliefert wurde.

Betrifft mich das, wenn ich Claude nur über die Web-Oberfläche nutze?

Die dokumentierten Probleme betreffen primär Claude Code (das CLI-Tool für Entwickler) und die API. Die Web-Oberfläche nutzt ebenfalls Opus 4.6, aber die spezifischen Metriken wie Read:Edit-Verhältnis gelten dort nicht. Die reduzierte Denktiefe betrifft potenziell alle Nutzungswege.

Ist der Workaround mit /effort max dauerhaft?

Nein. Es ist eine aktive Einstellung, die Sie pro Session oder über eine Umgebungsvariable setzen müssen. Anthropic kann Parameter jederzeit serverseitig ändern. Eine langfristige Lösung wäre eine vertragliche Zusicherung der Modellqualität, die es bisher nicht gibt.

Wie schneidet Opus 4.6 im Vergleich zu Wettbewerbern ab?

Laut dem Marginlab-Tracker liegt Opus 4.6 mit Score 62 auf Rang 8, mit dem Status “VOLA ALERT” (volatil). Zum Vergleich: Sonnet 4 (Score 70, Rang 1) und der Vorgänger Opus 4.5 (Score 68, Rang 3) liefern stabilere Ergebnisse zu niedrigeren Kosten.


Nächster Schritt

Sie setzen KI-Tools produktiv ein und wollen Ihre Anbieterabhängigkeit realistisch bewerten? Ich mache die Bestandsaufnahme und entwickle mit Ihnen eine Multi-Provider-Strategie, die nicht beim ersten API-Update wackelt.

Erstgespräch vereinbaren – kostenfrei

→ Oder zuerst mehr lesen: KI & Automatisierung für den Mittelstand

Über den Autor René Pfisterer

10+ Jahre Erfahrung in ERP-Integration, Datenmigration und Prozessautomatisierung für den Mittelstand. Spezialisiert auf DATEV, SAP und KI-Implementierung.

Vollständiges Profil →
← Vorheriger Beitrag WhatsApp-Klage gegen Meta: Was das für Unternehmen bedeutet Nächster Beitrag → Der Burrito, der Python kann: Was Chipotles Chatbot dem Mittelstand zu sagen hat

Interesse geweckt?

Lassen Sie uns in einem kurzen Gespräch klären, ob und wie ich helfen kann.