OpenClaw: Wie wir drei KI-Agenten dazu gebracht haben, miteinander zu debattieren
Wir haben mit OpenClaw ein Multi-Agent Debate System gebaut: Drei KI-Agenten diskutieren in separaten Terminal-Sessions, bis sie einen Konsens finden. Was dabei herausgekommen ist.
Im ersten Beitrag zu OpenClaw ging es um die Grundidee: Ein KI-Assistent, der auf eigener Hardware läuft und per WhatsApp steuerbar ist. Seitdem haben wir weiter experimentiert — und etwas gebaut, das zeigt, wohin sich KI-Automatisierung gerade entwickelt.
Wir haben drei KI-Agenten dazu gebracht, in separaten Terminal-Sessions miteinander zu debattieren — bis sie sich auf eine Lösung geeinigt haben.
Das Problem: Ein einzelner Agent reicht nicht
Jeder, der mit ChatGPT oder Claude arbeitet, kennt das: Die erste Antwort klingt gut. Aber wenn man nachhakt, zeigen sich Lücken. Das Modell bestätigt sich selbst, übersieht Risiken, bleibt in seiner eigenen Logik gefangen.
Aktuelle Forschung (ICML 2024, arXiv 2025) zeigt: Wenn mehrere Agenten mit unterschiedlichen Rollen dasselbe Problem bearbeiten und sich gegenseitig kritisieren, sinken Halluzinationen messbar. Die Ergebnisse werden robuster.
Das Konzept heißt Multi-Agent Debate (MAD). Und es ist nicht nur Theorie — wir haben es auf unserer eigenen Infrastruktur umgesetzt.
Was wir gebaut haben: Der MAD-Controller
Konkret haben wir einen MAD-Orchestrator implementiert, der auf OpenClaw und tmux basiert. tmux ist ein Terminal-Multiplexer — eine Software, die es erlaubt, mehrere Terminal-Sessions parallel laufen zu lassen, ohne dass eine aktive Verbindung offen bleiben muss.
Unser Setup: Eine tmux-Session mit drei Panes, in denen drei spezialisierte Agenten arbeiten:
Pane 0 — Der Generator: Erzeugt konkrete, praxisnahe Lösungsvorschläge. Berücksichtigt dabei vorherige Kritik und verbessert seine Vorschläge Runde für Runde.
Pane 1 — Der Kritiker: Liest den Vorschlag des Generators, analysiert ihn auf Schwachstellen, fehlende Aspekte und Praxistauglichkeit. Konstruktiv, aber scharf.
Pane 2 — Der Richter: Überwacht den Austausch zwischen Generator und Kritiker. Bewertet, ob die Argumente konvergieren. Und entscheidet, wann ein stabiler Konsens erreicht ist.
Die Agenten kommunizieren über tmux capture-pane — der Orchestrator liest den Output jedes Panes, gibt ihn an den nächsten Agenten weiter und schreibt Statusmeldungen in die jeweiligen Sessions. Maximal fünf Runden, Abbruch bei Konsens.
Warum tmux der Schlüssel ist
Die meisten KI-Tools führen Befehle einmalig aus: Kommando rein, Ergebnis raus, fertig. Der Kontext geht verloren.
tmux löst das. Die Sessions laufen persistent im Hintergrund. Der Agent kann einen Befehl senden, die Ausgabe lesen, darüber nachdenken und einen Folgebefehl in derselben Session absetzen. Das simuliert, wie ein Mensch am Terminal arbeitet — nur ohne Pause zwischen den Schritten.
Für den MAD-Controller bedeutet das: Drei Agenten arbeiten gleichzeitig in ihren eigenen Umgebungen, sehen die Ergebnisse der anderen und reagieren darauf. Alles lokal, alles auf eigener Hardware, ohne Cloud-Abhängigkeit.
Das Ergebnis: Konsens nach drei Runden
Unser Testthema war: „Wie kann ein kleines Unternehmen KI sinnvoll im Alltag einsetzen?"
Was passiert ist:
- Runde 1: Der Generator lieferte einen soliden, aber generischen Vorschlag. Der Kritiker bemängelte fehlende Kostenabschätzungen und unrealistische Erwartungen an KMU-Ressourcen.
- Runde 2: Der Generator überarbeitete den Vorschlag — konkreter, mit Budgetrahmen und Priorisierung. Der Kritiker identifizierte eine Lücke beim Thema Datenschutz.
- Runde 3: Der Generator ergänzte DSGVO-konforme Alternativen. Der Richter erkannte Konsens und lieferte eine Synthese.
Das Ergebnis war deutlich differenzierter als jede einzelne ChatGPT-Antwort. Nicht weil das Modell besser war — sondern weil die Architektur es dazu gezwungen hat, Schwachstellen zu adressieren, statt sie zu ignorieren.
Warum das für Unternehmen relevant ist
Dieses Experiment demonstriert ein Prinzip, das über das Debattieren hinausgeht:
Agenten, die sich gegenseitig prüfen, liefern bessere Ergebnisse als Agenten, die allein arbeiten. Das gilt für Textgenerierung genauso wie für Code-Reviews, Compliance-Checks oder strategische Analysen.
Und mit tmux als Persistenzschicht und OpenClaw als Orchestrierungslayer lassen sich solche Multi-Agenten-Systeme auf eigener Infrastruktur betreiben — ohne Daten an Dritte zu geben, ohne Vendor-Lock-in.
Die Frage ist nicht mehr „Kann KI das?", sondern: Wie orchestriert man es richtig?
Sie wollen wissen, wie KI-Agenten in Ihrem Unternehmen eingesetzt werden können? Wir beraten zu Architektur, Sicherheit und Integration — pragmatisch, ohne Hype.
→ Kostenloses Erstgespräch buchen
Quellen: openclaw.ai | Forschung zu Multi-Agent Debate: ICML 2024, arXiv 2025
Interesse geweckt?
Lassen Sie uns in einem kurzen Gespräch klären, ob und wie ich helfen kann.