KI-Agent lokal betreiben: 0 Euro API-Kosten mit einer GPU

Wir haben unser OpenAI-Abo gekündigt. Nicht aus Protest, nicht aus Prinzip — sondern weil wir es nicht mehr brauchen.

Unser KI-Agent OpenClaw läuft seit Wochen produktiv auf einem lokalen Open-Source-Modell. Lokale KI-Lösungen sind ein Schwerpunkt meiner KI & Automatisierungs-Beratung. Auf einer einzigen Grafikkarte. Ohne Cloud, ohne API-Schlüssel, ohne monatliche Rechnung. Und ja — er kann Tool-Calling, Web-Suche und Multi-Agent-Debatten.

Warum lokal statt Cloud?

Die meisten KI-Agenten nutzen APIs von OpenAI, Anthropic oder Google. Das funktioniert — aber es hat drei Probleme, die bei intensiver Nutzung schnell relevant werden.

Die Kosten explodieren

Ein KI-Agent ist kein Chatbot. Er ruft nicht einmal ein Modell auf, sondern dutzende Male pro Aufgabe. Tool-Calling, Kontextfenster-Management, Retry-Logik — das sind schnell 50.000–100.000 Tokens pro komplexer Aufgabe. Bei GPT-4-Preisen summiert sich das auf 500–1.000 Euro pro Monat bei regelmäßiger Nutzung. Und die Preise steigen mit jeder neuen Modellgeneration.

Jedes Byte verlässt Ihr Netzwerk

Wenn Ihr Agent Kundendaten analysiert, Verträge zusammenfasst oder interne Dokumente durchsucht — dann landen diese Daten bei einem US-amerikanischen Cloud-Anbieter. Egal, was die DSGVO-Klausel im Vertrag sagt: Die Daten sind weg. Bei einem lokalen Modell verlässt nichts das eigene Netzwerk. Nicht ein einziges Byte.

Vendor Lock-in durch API-Abhängigkeit

OpenAI ändert seine Preise? Rate Limits greifen mitten im Workflow? Das Modell wird deprecated? All das haben wir in den letzten 18 Monaten erlebt. Wer seine Agenten auf fremde APIs baut, hat die Kontrolle über seine eigene Infrastruktur abgegeben.

Die Hardware: Eine GPU für alles

Unser Setup ist bewusst minimalistisch:

GPU: NVIDIA RTX 4090 mit 24 GB VRAM
Modell: Mistral Small 24B Instruct, quantisiert auf 4 Bit (AWQ)
VRAM-Nutzung: ~23 GB (Modell + KV-Cache)
Context Window: 32.768 Tokens

Die Rechnung: Eine RTX 4090 kostet ca. 1.800 Euro. Ein OpenAI-API-Abo für Agent-Nutzung liegt bei 500–1.000 Euro monatlich. Break-even nach 2–4 Monaten. Danach: null laufende Kosten für Inferenz.

Wer keine eigene Hardware anschaffen will: Ein GPU-Server bei einem deutschen Hoster kostet ab ca. 150 Euro pro Monat — immer noch deutlich günstiger als API-Kosten bei aktiver Agent-Nutzung.

Die Drei-Schichten-Architektur

Was unser Setup von einem einfachen Ollama-Chat unterscheidet, ist die Architektur. Sie besteht aus drei Schichten, die zusammen ein produktionsreifes System ergeben.

Schicht 1: vLLM Inference Server

Das Herzstück. vLLM ist ein hochperformanter Inference-Server, der ein lokales Modell als OpenAI-kompatible API bereitstellt. Heißt: Jedes Tool, das mit der OpenAI-API sprechen kann, funktioniert auch mit unserem lokalen Modell — man ändert nur die Base-URL von api.openai.com auf localhost:8000.

Entscheidend: vLLM unterstützt natives Tool-Calling für Mistral-Modelle. Der Agent kann also nicht nur Text generieren, sondern aktiv Funktionen aufrufen — Dateien lesen, Befehle ausführen, Web-Suchen starten.

Schicht 2: OpenClaw Gateway

Die Orchestrierungsschicht. Der Gateway läuft als Node.js-Service und übernimmt alles, was über reine Textgenerierung hinausgeht: Plugin-Management, Speicherverwaltung, Kontextkomprimierung und die Anbindung an externe Kanäle.

Ein Plugin-System erlaubt Erweiterungen ohne Eingriff ins Kernsystem. Unser tool-guard-Plugin verhindert beispielsweise, dass der Agent in Endlosschleifen gerät, wenn ein Tool-Call wiederholt fehlschlägt.

Schicht 3: Kanäle

Der Agent braucht eine Schnittstelle zum Nutzer. Bei uns ist das aktuell ein Discord-Bot — aber die Architektur ist kanalunabhängig. Terminal, Browser, Messenger: alles möglich über die Gateway-API.

Production-Grade: systemd statt Bastelei

Beide Kernservices laufen als systemd-Units mit Abhängigkeitskette: Der Gateway startet erst, wenn vLLM bereit ist. Ein Health-Check pollt den Inference-Server bis zu drei Minuten lang, bevor er die Verbindung freigibt. Das ist kein Bastelprojekt — das ist Infrastruktur, die rund um die Uhr läuft.

Ist ein lokales 24B-Modell gut genug?

Die ehrliche Antwort: Für 90 % der Agent-Aufgaben — ja.

Was zuverlässig funktioniert:

Tool-Calling (Dateien lesen/schreiben, Shell-Befehle, API-Calls)
Zusammenfassungen und Analysen von Dokumenten
Code-Generierung und Reviews
Web-Recherche mit anschließender Synthese
Multi-Agent-Szenarien (wie in unserem MAD-Experiment demonstriert)

Wo die Grenzen liegen:

Sehr komplexes, mehrstufiges Reasoning über viele Schritte
Aufgaben, die ein Kontextfenster von >32K Tokens erfordern
Sprachen jenseits von Deutsch und Englisch

Für einen Unternehmensassistenten, der im Tagesgeschäft unterstützt, ist Mistral Small 24B mehr als ausreichend. Und die Modelle werden schneller besser, als die meisten erwarten.

Was das für den Mittelstand bedeutet

Der KI-Markt bewegt sich gerade in zwei Richtungen: Große Unternehmen binden sich an Cloud-Anbieter. Und eine wachsende Zahl von Unternehmen erkennt, dass lokale Infrastruktur die klügere Wahl ist.

Die Argumente sind handfest:

DSGVO by Design — keine Datenverarbeitung durch Dritte
Investitionskosten statt laufender Kosten — Hardware amortisiert sich in Monaten
Keine Abhängigkeit — kein Vendor Lock-in, keine Preiserhöhungen, keine Rate Limits
Perspektive — Hardware wird billiger, Open-Source-Modelle werden besser. Der Trend arbeitet für Sie, nicht gegen Sie.

Fazit für die Praxis

Lokale LLMs sind kein Hobbyprojekt mehr. Mit der richtigen Architektur — vLLM als Inference-Layer, ein Gateway zur Orchestrierung, systemd für Stabilität — lässt sich ein produktionsreifer KI-Agent auf einer einzigen Consumer-GPU betreiben.

Die Frage ist nicht, ob lokale KI-Agenten für den Mittelstand relevant werden. Die Frage ist, wann Sie anfangen. Die Hardware kostet weniger als drei Monate API-Gebühren. Und danach gehört Ihnen die Infrastruktur — komplett.

Nächster Schritt

Sie wollen KI auf eigener Infrastruktur betreiben? Ich berate zu Architektur, Modellauswahl und Deployment — von der GPU-Auswahl bis zum produktionsreifen Setup.

→ Erstgespräch vereinbaren — kostenfrei

→ Oder zuerst mehr lesen: KI-Workshop: Geschäftsprozesse

Code & Konfiguration: github.com/Kendo1988/openclaw

0 Euro API-Kosten: Wie wir einen KI-Agenten auf einer einzigen GPU betreiben

Warum lokal statt Cloud?

Die Kosten explodieren

Jedes Byte verlässt Ihr Netzwerk

Vendor Lock-in durch API-Abhängigkeit

Die Hardware: Eine GPU für alles

Die Drei-Schichten-Architektur

Schicht 1: vLLM Inference Server

Schicht 2: OpenClaw Gateway

Schicht 3: Kanäle

Production-Grade: systemd statt Bastelei

Ist ein lokales 24B-Modell gut genug?

Was das für den Mittelstand bedeutet

Fazit für die Praxis

Nächster Schritt

Interesse geweckt?

0 Euro API-Kosten: Wie wir einen KI-Agenten auf einer einzigen GPU betreiben

Warum lokal statt Cloud?

Die Kosten explodieren

Jedes Byte verlässt Ihr Netzwerk

Vendor Lock-in durch API-Abhängigkeit

Die Hardware: Eine GPU für alles

Die Drei-Schichten-Architektur

Schicht 1: vLLM Inference Server

Schicht 2: OpenClaw Gateway

Schicht 3: Kanäle

Production-Grade: systemd statt Bastelei

Ist ein lokales 24B-Modell gut genug?

Was das für den Mittelstand bedeutet

Fazit für die Praxis

Nächster Schritt

Diesen Beitrag teilen

Interesse geweckt?