0 Euro API-Kosten: Wie wir einen KI-Agenten auf einer einzigen GPU betreiben
OpenClaw laeuft auf einem lokalen 24B-Modell, einer einzigen GPU, ohne Cloud, ohne laufende Kosten. So funktioniert die DSGVO-konforme Architektur.
Wir haben unser OpenAI-Abo gekündigt. Nicht aus Protest, nicht aus Prinzip — sondern weil wir es nicht mehr brauchen.
Unser KI-Agent OpenClaw läuft seit Wochen produktiv auf einem lokalen Open-Source-Modell. Lokale KI-Lösungen sind ein Schwerpunkt meiner KI & Automatisierungs-Beratung. Auf einer einzigen Grafikkarte. Ohne Cloud, ohne API-Schlüssel, ohne monatliche Rechnung. Und ja — er kann Tool-Calling, Web-Suche und Multi-Agent-Debatten.
Warum lokal statt Cloud?
Die meisten KI-Agenten nutzen APIs von OpenAI, Anthropic oder Google. Das funktioniert — aber es hat drei Probleme, die bei intensiver Nutzung schnell relevant werden.
Die Kosten explodieren
Ein KI-Agent ist kein Chatbot. Er ruft nicht einmal ein Modell auf, sondern dutzende Male pro Aufgabe. Tool-Calling, Kontextfenster-Management, Retry-Logik — das sind schnell 50.000–100.000 Tokens pro komplexer Aufgabe. Bei GPT-4-Preisen summiert sich das auf 500–1.000 Euro pro Monat bei regelmäßiger Nutzung. Und die Preise steigen mit jeder neuen Modellgeneration.
Jedes Byte verlässt Ihr Netzwerk
Wenn Ihr Agent Kundendaten analysiert, Verträge zusammenfasst oder interne Dokumente durchsucht — dann landen diese Daten bei einem US-amerikanischen Cloud-Anbieter. Egal, was die DSGVO-Klausel im Vertrag sagt: Die Daten sind weg. Bei einem lokalen Modell verlässt nichts das eigene Netzwerk. Nicht ein einziges Byte.
Vendor Lock-in durch API-Abhängigkeit
OpenAI ändert seine Preise? Rate Limits greifen mitten im Workflow? Das Modell wird deprecated? All das haben wir in den letzten 18 Monaten erlebt. Wer seine Agenten auf fremde APIs baut, hat die Kontrolle über seine eigene Infrastruktur abgegeben.
Die Hardware: Eine GPU für alles
Unser Setup ist bewusst minimalistisch:
- GPU: NVIDIA RTX 4090 mit 24 GB VRAM
- Modell: Mistral Small 24B Instruct, quantisiert auf 4 Bit (AWQ)
- VRAM-Nutzung: ~23 GB (Modell + KV-Cache)
- Context Window: 32.768 Tokens
Die Rechnung: Eine RTX 4090 kostet ca. 1.800 Euro. Ein OpenAI-API-Abo für Agent-Nutzung liegt bei 500–1.000 Euro monatlich. Break-even nach 2–4 Monaten. Danach: null laufende Kosten für Inferenz.
Wer keine eigene Hardware anschaffen will: Ein GPU-Server bei einem deutschen Hoster kostet ab ca. 150 Euro pro Monat — immer noch deutlich günstiger als API-Kosten bei aktiver Agent-Nutzung.
Die Drei-Schichten-Architektur
Was unser Setup von einem einfachen Ollama-Chat unterscheidet, ist die Architektur. Sie besteht aus drei Schichten, die zusammen ein produktionsreifes System ergeben.
Schicht 1: vLLM Inference Server
Das Herzstück. vLLM ist ein hochperformanter Inference-Server, der ein lokales Modell als OpenAI-kompatible API bereitstellt. Heißt: Jedes Tool, das mit der OpenAI-API sprechen kann, funktioniert auch mit unserem lokalen Modell — man ändert nur die Base-URL von api.openai.com auf localhost:8000.
Entscheidend: vLLM unterstützt natives Tool-Calling für Mistral-Modelle. Der Agent kann also nicht nur Text generieren, sondern aktiv Funktionen aufrufen — Dateien lesen, Befehle ausführen, Web-Suchen starten.
Schicht 2: OpenClaw Gateway
Die Orchestrierungsschicht. Der Gateway läuft als Node.js-Service und übernimmt alles, was über reine Textgenerierung hinausgeht: Plugin-Management, Speicherverwaltung, Kontextkomprimierung und die Anbindung an externe Kanäle.
Ein Plugin-System erlaubt Erweiterungen ohne Eingriff ins Kernsystem. Unser tool-guard-Plugin verhindert beispielsweise, dass der Agent in Endlosschleifen gerät, wenn ein Tool-Call wiederholt fehlschlägt.
Schicht 3: Kanäle
Der Agent braucht eine Schnittstelle zum Nutzer. Bei uns ist das aktuell ein Discord-Bot — aber die Architektur ist kanalunabhängig. Terminal, Browser, Messenger: alles möglich über die Gateway-API.
Production-Grade: systemd statt Bastelei
Beide Kernservices laufen als systemd-Units mit Abhängigkeitskette: Der Gateway startet erst, wenn vLLM bereit ist. Ein Health-Check pollt den Inference-Server bis zu drei Minuten lang, bevor er die Verbindung freigibt. Das ist kein Bastelprojekt — das ist Infrastruktur, die rund um die Uhr läuft.
Ist ein lokales 24B-Modell gut genug?
Die ehrliche Antwort: Für 90 % der Agent-Aufgaben — ja.
Was zuverlässig funktioniert:
- Tool-Calling (Dateien lesen/schreiben, Shell-Befehle, API-Calls)
- Zusammenfassungen und Analysen von Dokumenten
- Code-Generierung und Reviews
- Web-Recherche mit anschließender Synthese
- Multi-Agent-Szenarien (wie in unserem MAD-Experiment demonstriert)
Wo die Grenzen liegen:
- Sehr komplexes, mehrstufiges Reasoning über viele Schritte
- Aufgaben, die ein Kontextfenster von >32K Tokens erfordern
- Sprachen jenseits von Deutsch und Englisch
Für einen Unternehmensassistenten, der im Tagesgeschäft unterstützt, ist Mistral Small 24B mehr als ausreichend. Und die Modelle werden schneller besser, als die meisten erwarten.
Was das für den Mittelstand bedeutet
Der KI-Markt bewegt sich gerade in zwei Richtungen: Große Unternehmen binden sich an Cloud-Anbieter. Und eine wachsende Zahl von Unternehmen erkennt, dass lokale Infrastruktur die klügere Wahl ist.
Die Argumente sind handfest:
- DSGVO by Design — keine Datenverarbeitung durch Dritte
- Investitionskosten statt laufender Kosten — Hardware amortisiert sich in Monaten
- Keine Abhängigkeit — kein Vendor Lock-in, keine Preiserhöhungen, keine Rate Limits
- Perspektive — Hardware wird billiger, Open-Source-Modelle werden besser. Der Trend arbeitet für Sie, nicht gegen Sie.
Fazit für die Praxis
Lokale LLMs sind kein Hobbyprojekt mehr. Mit der richtigen Architektur — vLLM als Inference-Layer, ein Gateway zur Orchestrierung, systemd für Stabilität — lässt sich ein produktionsreifer KI-Agent auf einer einzigen Consumer-GPU betreiben.
Die Frage ist nicht, ob lokale KI-Agenten für den Mittelstand relevant werden. Die Frage ist, wann Sie anfangen. Die Hardware kostet weniger als drei Monate API-Gebühren. Und danach gehört Ihnen die Infrastruktur — komplett.
Nächster Schritt
Sie wollen KI auf eigener Infrastruktur betreiben? Ich berate zu Architektur, Modellauswahl und Deployment — von der GPU-Auswahl bis zum produktionsreifen Setup.
→ Erstgespräch vereinbaren — kostenfrei
→ Oder zuerst mehr lesen: KI-Workshop: Geschäftsprozesse
Code & Konfiguration: github.com/Kendo1988/openclaw
Interesse geweckt?
Lassen Sie uns in einem kurzen Gespräch klären, ob und wie ich helfen kann.