Pro Seat budgetiert, pro Token abgerechnet: Wenn die KI-Rechnung keine Obergrenze mehr hat
Microsoft Copilot Cowork rechnet seit 16.06.2026 pro Verbrauch ab. Warum der Mittelstand KI pro Seat budgetiert, aber pro Token zahlt — und wie Sie das deckeln.

Montag, 9 Uhr. Der CFO eines Maschinenbauers mit 1.200 Beschäftigten öffnet die erste Copilot-Cowork-Rechnung nach dem Stichtag vom 16.06.2026. Die Seat-Lizenz steht da wie immer, Monat für Monat dieselbe Zahl. Darunter eine zweite Zeile, die im letzten Abrechnungslauf noch nicht da war: Verbrauch, ausgewiesen in Credits, mit einem Betrag, den niemand vorhergesagt hatte.
Den Vertrag dazu hat er vor drei Monaten unterschrieben. Was ein schwerer KI-Task wirklich kostet, weiß er erst jetzt. Genau diese Reihenfolge ist das Problem: Die Rechnung kommt nach der Unterschrift, nicht davor.
Die Rechnung hat zwei Logiken, das Budget nur eine
Ein KI-Stack im Microsoft- oder Salesforce-Umfeld kostet seit diesem Sommer zweimal. Einmal als Fixum pro Nutzer, planbar wie jede Software-Lizenz. Und einmal als Verbrauch, abgerechnet pro tatsächlicher KI-Aktivität.
Microsoft hat das mit der weltweiten General Availability von Copilot Cowork zum 16.06.2026 scharf gestellt (MSDynamicsWorld, 16.06.2026). Die Abrechnung läuft über Credits zu 0,01 US-Dollar pro Stück. Ein leichter Task verbraucht rund 125 Credits, ein schwerer rund 2.500. Das ist Faktor 20 bei identischer Seat-Zahl, identischen Nutzern, identischem Monat. Die Seat-Zeile bleibt konstant. Die Verbrauchs-Zeile schwankt mit dem, was die Belegschaft im Hintergrund an die KI delegiert.
Das Admin-Center kennt eine Bremse: Spend-Limits pro Nutzer und Gruppe. Bei General Availability ist diese Funktion allerdings standardmäßig deaktiviert. Ein Administrator muss sie aktiv setzen. Wer nichts tut, ersetzt eine harte Obergrenze durch eine bloße Annahme darüber, wie viel die Belegschaft verbraucht. Die Grace Period für die Umstellung läuft noch bis zum 01.07.2026, danach greift das Billing voll.
Der Mittelstand budgetiert KI bislang als Seat-Preis. Eine Zahl pro Nutzer, mal Anzahl Nutzer, mal zwölf Monate. Diese Rechnung beschreibt aber nur noch die halbe Wahrheit. Die andere Hälfte steht im Verbrauch, und der entscheidet sich im Arbeitsalltag der nächsten zwölf Monate, lange nach dem Verhandlungstisch.
Der Vendor weiß, dass es wehtut
Bemerkenswert an der aktuellen Debatte ist weniger der Protest der Kunden als das offene Eingeständnis der Anbieter.
Bill Patterson, bei Salesforce für das KI-Geschäft zuständig, hat es am 23.06.2026 öffentlich ausgesprochen (diginomica, 23.06.2026). Er beschreibt CFOs, die bei der KI-Investition nachfragen, ob sie sich rechnet, und die Antwort selbst geben: “No, but I’m paying for it.” Patterson nennt aktuelle KI-Nutzung an einer Stelle “a very expensive Google search”. Die Adoption steige, aber, so seine Formulierung, “use is not leading to yield”. Mehr Nutzung erzeugt nicht automatisch mehr Ertrag, sie erzeugt erst einmal mehr Rechnung.
Das deckt sich mit einem Muster, das im SAP-Umfeld längst belegt ist. Der DSAG-Investitionsreport 2026 vom 26.02.2026 (n=337) misst 3 Prozent produktive Nutzung von SAP Joule, obwohl der Anbieter es seit Jahren als nativen S/4HANA-Bestandteil kommuniziert. Adoption ist nicht gleich Ertrag, und der Abstand zwischen beidem zahlt der Kunde. Wer dieses Muster im Detail nachlesen will, findet es in der Auswertung Vier Reports, ein unbequemes Muster.
Der Punkt ist nicht, dass KI nichts bringt. Der Punkt ist, dass der Ertrag erst nach der Rechnung kommt, und die Rechnung jetzt variabel ist.
Was die Zahlen aus dem Mittelstand sagen
Die Makro-Sicht bestätigt das Bild aus der CFO-Szene. Der Bitkom-Studienbericht “Künstliche Intelligenz in Deutschland 2026” vom Februar 2026 (n=604, Unternehmen ab 20 Mitarbeitenden) misst 41 Prozent produktive KI-Nutzung. 77 Prozent berichten eine bessere Wettbewerbsposition. Der Nutzen ist also real und messbar. Im selben Bericht stehen aber 33 Prozent, die höhere Kosten melden als erwartet. Ein Drittel der KI-nutzenden Unternehmen hat sich bei der eigenen Rechnung verschätzt.
Gartner rechnet das auf die Projektebene hoch. Im Hype Cycle for Generative AI 2026 (zitiert über The Register, 28.05.2026) gehen die Analysten davon aus, dass mindestens die Hälfte aller GenAI-Projekte ihr Kostenbudget überzieht, unter anderem “due to poor architectural choices”, und dass mindestens die Hälfte der Proof-of-Concepts unter anderem wegen “escalating costs” abgebrochen wird. In einer separaten Pressemitteilung vom 18.06.2026 beschreibt Gartner per-Token-Kosten über tausende Nutzer als “TCO nightmare”.
Die Lücke heißt also nicht “KI ist zu teuer”. KI bringt nachweisbar Ertrag. Die Lücke entsteht dort, wo pro Seat budgetiert und pro Token abgerechnet wird. Das ist kein Preisproblem, das ist ein Modellbruch zwischen Plan und Realität.
Warum jetzt und nicht in einem Jahr
Tokenomics ist innerhalb weniger Tage von einer Nische zur Top-Story der Analysten geworden. diginomica behandelt das Thema in seinem Wochenrückblick vom 22.06.2026 als wiederkehrenden Stoff, Constellation Research stellt am 21.06.2026 die strategische Frage dahinter, und ComputerWeekly diskutiert es am 23.06.2026 in einem CIO-Roundtable.
Dazu kommt der harte Stichtag. Der Wechsel von Seat zu Verbrauch ist für Microsoft-Kunden kein vager Trend, sondern ein Vertragsdatum: GA am 16.06.2026, volles Billing nach dem 01.07.2026. Wer seinen nächsten KI-Vertrag in diesem Sommer verhandelt, verhandelt bereits unter dem neuen Modell, auch wenn die entscheidende Klausel im Vertrag ungelesen bleibt.
Der Verbrauchs-Posten verhält sich dabei wie eine Cloud-Kostenfalle, die viele aus dem Infrastruktur-Bereich kennen. Erst flexibel und attraktiv, dann unkontrolliert wachsend, weil niemand ein Limit gesetzt hat. Genau aus diesem Grund holen einzelne Unternehmen Workloads zurück; ich habe das im Beitrag warum erste Unternehmen ihre Systeme zurückholen beschrieben. Verbrauchsbasierte KI gehört in dieselbe Risikoklasse.
Zum Mitnehmen
Wer das Verbrauchs-Risiko nicht vor der Unterschrift deckelt, hat statt eines KI-Budgets eine KI-Wette laufen, deren Einsatz erst der dritte Abrechnungsmonat verrät. Die Trennung in Fixum und Verbrauch lässt sich an einer Vormittagssitzung machen, lange bevor der nächste Vertrag auf dem Tisch liegt. Füllen Sie diese drei Spalten für jeden KI-Posten einmal aus, dann sehen Sie schwarz auf weiß, welcher Teil planbar ist und welcher offen.
| Posten | Logik | Deckel-Klausel |
|---|---|---|
| Seat / Lizenz (z. B. Copilot $30/Nutzer) | Fixum, monatlich konstant | keine nötig, planbar |
| Verbrauch (Credits, Token, Tasks) | offen, schwankt mit Nutzung | Verbrauchs-Cap pro Monat + Vorwarnung bei X Prozent |
| Modellwahl / schwere Tasks | Kostentreiber, Faktor bis 20 | Recht auf Modell-Downgrade im Vertrag |
Vier Schritte für den Montagmorgen:
- Die letzten drei KI-Rechnungen nach Fixum und Verbrauch trennen. Zwei Summen, zwei Farben. Erst dann sehen Sie den variablen Anteil.
- Die Verbrauchs-Treiber benennen. Bei Cowork sind das vor allem Modellwahl, Tool-Calls, Task-Laufzeit und Kontext-Retrieval. Welcher Treiber zieht bei Ihnen die Zahl nach oben?
- Das Spend-Limit im Admin-Center setzen. Die Funktion existiert, ist bei GA aber deaktiviert. Pro Nutzer und pro Gruppe.
- Die Deckel-Klausel in den nächsten Vertrag schreiben: Verbrauchs-Cap, Vorwarnung bei einem Schwellenwert, Recht auf ein günstigeres Modell.
Der Beleg, warum Schritt 1 nicht optional ist: Bei Cowork kostet derselbe Task in der leichten Variante rund 125 Credits, in der schweren rund 2.500. Vorher steht in der Planung eine Seat-Zahl, nachher eine Verbrauchs-Zahl mit Faktor 20 Spannweite. Wer nur die Seat-Zahl budgetiert, plant mit der falschen Hälfte.
Diese Tabelle gilt nicht, wenn Ihr KI-Einsatz reine Chat-Nutzung im Seat-Umfang bleibt. Dann ist die Flatrate weiterhin das günstigere und planbarere Modell, und Sie brauchen keinen Deckel. Sobald aber Agenten, lange Tasks oder automatisierte Tool-Calls dazukommen, kippt die Rechnung in den offenen Posten.
Was die Marktzahlen nicht zeigen
Der stärkste Einwand gegen diese Position kommt nicht aus dem Marketing, sondern von den Vendor-Strategen selbst, und er ist seriös. Pay-as-you-go sei fairer als die Flatrate. Man zahle nur, was man nutzt; bei einem festen Seat-Preis subventionieren die Wenig-Nutzer die Viel-Nutzer. Patterson argumentiert genau so, und Microsoft begründet die Umstellung damit, dass Flatrates an “heavy usern” mit hunderten Tasks pro Woche wirtschaftlich scheitern.
Das Argument stimmt, soweit es reicht. Für ein Unternehmen mit sehr ungleicher Nutzung ist verbrauchsbasiert tatsächlich gerechter, und der Verzicht auf eine Quersubvention ist betriebswirtschaftlich sauber.
Es verfehlt nur den Punkt des Mittelständlers. Fairness pro Nutzung löst kein Budgetierbarkeits-Problem. Eine faire variable Rechnung ist immer noch eine variable Rechnung, und der CFO braucht eine Jahreszahl, die er dem Gesellschafter nennen kann, bevor das Jahr läuft. Gerechtigkeit im Abrechnungsmodell und Planbarkeit im Budget sind zwei verschiedene Eigenschaften; ein faires Abrechnungsmodell macht das Budget noch nicht planbar.
Es gibt einen zweiten Einwand, und der wiegt schwerer. Steve Pagram beschreibt bei Constellation Research am 21.06.2026, wie man “monitoring token spend early on” zur eigenen Disziplin macht, statt sie dem Anbieter zu überlassen. Wer jeden Vendor sein KI-Problem für sich lösen lässt, verliert die eigene KI-Strategie an die Summe fremder Roadmaps. Budget-Kontrolle gehört hier zur Architektur-Hoheit und nicht in die Buchhaltung am Jahresende. Das ist dieselbe Mechanik wie beim klassischen Vendor Lock-in, der bei der Ausschreibung beginnt: Wer die Kostenmechanik nicht selbst kontrolliert, hat sie an den Anbieter abgegeben.
Eine Randbedingung gehört noch dazu, weil sie ins selbe Budget fällt. Artikel 4 der KI-Verordnung (VO (EU) 2024/1689) verlangt seit dem 02.02.2025 ausreichende KI-Kompetenz im Unternehmen. 53 Prozent der Firmen nennen fehlende KI-Kompetenz als größte Hürde, 43 Prozent bieten noch kein KI-Training (Bitkom 2026). Schulung ist damit eine Pflicht-Kostenposition, die neben dem Token-Verbrauch im selben KI-Budget steht. Und ohne kompetente Nutzer steigt der Verbrauch eher, weil schlecht gestellte Aufgaben die teuren schweren Tasks auslösen.
Häufige Fragen zu KI-Tokenomics
Was ist der Unterschied zwischen einer Seat-Lizenz und verbrauchsbasierter KI-Abrechnung?
Die Seat-Lizenz ist ein Fixpreis pro Nutzer und Monat, planbar wie jede Software-Lizenz. Verbrauchsbasiert heißt, Sie zahlen zusätzlich pro tatsächlicher KI-Aktivität. Bei Microsoft Copilot Cowork läuft das über Credits zu 0,01 US-Dollar (Stand 16.06.2026). Ein leichter Task kostet rund 125, ein schwerer rund 2.500 Credits, also Faktor 20 bei identischer Nutzerzahl. Die Seat-Zeile bleibt gleich, die Verbrauchs-Zeile schwankt.
Kann ich das Verbrauchs-Risiko begrenzen, ohne KI ganz zu verbieten?
Ja. Microsoft erlaubt im Admin-Center Spend-Limits pro Nutzer und Gruppe. Die Funktion ist bei General Availability allerdings standardmäßig deaktiviert, ein Administrator muss sie aktiv setzen. Zusätzlich gehört eine Deckel-Klausel in den Vertrag: Verbrauchs-Cap, Vorwarnung bei einem Schwellenwert, Recht auf ein günstigeres Modell.
Lohnt sich KI im Mittelstand dann überhaupt noch?
Die Zahlen sagen ja, mit Vorbehalt. 41 Prozent der Unternehmen nutzen KI produktiv, 77 Prozent berichten eine bessere Wettbewerbsposition (Bitkom-Studienbericht 2026, Februar 2026). Aber 33 Prozent zahlen höhere Kosten als erwartet. Der Nutzen ist real. Die Kostenseite gehört vor die Unterschrift gerechnet, nicht in den dritten Abrechnungsmonat. Das gilt besonders dort, wo KI ohne ERP-Anbindung teures Spielzeug bleibt, weil der Verbrauch dann ohne entsprechenden Prozessnutzen steigt.
Warum stellen die Vendoren überhaupt auf Verbrauch um, wenn Seat planbarer ist?
Weil Flatrates an Viel-Nutzern wirtschaftlich scheitern. Wer hunderte KI-Tasks pro Woche fährt, kostet den Anbieter ein Vielfaches der Lizenzgebühr. Salesforce und Microsoft argumentieren, Pay-as-you-go sei fairer. Das stimmt für die Wenig-Nutzer, löst aber das Budgetierbarkeits-Problem des Mittelständlers nicht, der eine planbare Jahreszahl braucht.
Trifft mich die EU-AI-Act-Kompetenzpflicht hier auch?
Mittelbar, aber budgetrelevant. Artikel 4 der KI-Verordnung (VO (EU) 2024/1689) verlangt seit dem 02.02.2025 ausreichende KI-Kompetenz im Unternehmen. 53 Prozent der Firmen nennen fehlende KI-Kompetenz als größte Hürde, 43 Prozent bieten noch kein KI-Training (Bitkom 2026). Schulung ist damit keine Kür, sondern eine Pflicht-Kostenposition, die ins selbe Budget gehört wie der Token-Verbrauch.
Nächster Schritt
Wissen Sie, welcher Teil Ihrer nächsten KI-Rechnung ein Fixum ist und welcher ein offener Posten?
Ich gehe mit Ihnen Ihre letzten drei KI-Rechnungen durch und trenne sie gemeinsam in Fixum und Verbrauch, bevor der nächste Vertrag unterschrieben wird. Kostenfreies Vendor-Counter-Briefing zu Ihrem Stack, ohne Verkaufsdruck.
→ Erstgespräch vereinbaren, kostenfrei
→ Oder zuerst mehr lesen: KI-Automatisierung mit kalkulierbaren Kosten · Vendor Lock-in beginnt bei der Ausschreibung
Quellen und Links: diginomica: Salesforce Patterson zu Tokenomics, 23.06.2026 · diginomica: Enterprise hits and misses, 22.06.2026 · Constellation Research: Don’t let your vendor’s AI strategy become yours, 21.06.2026 · MSDynamicsWorld: Copilot Cowork GA, 16.06.2026 · The Register zu Gartner Hype Cycle GenAI, 28.05.2026 · Gartner Press Release Mainframe-Exit, 18.06.2026 · ComputerWeekly: Tokenomics-Roundtable, 23.06.2026 · DSAG-Investitionsreport 2026, 26.02.2026
Weiter lesen auf pfisterer.xyz: Vier Reports, ein unbequemes Muster · Vendor Lock-in beginnt bei der Ausschreibung · KI ohne ERP-Anbindung bleibt teures Spielzeug · Warum erste Unternehmen ihre Systeme zurückholen
Interesse geweckt?
Lassen Sie uns in einem kurzen Gespräch klären, ob und wie ich helfen kann.