Inside OpenClaw

Inside OpenClaw #1: Web-Suche ohne Halluzination

Lokale LLMs erfinden Suchergebnisse, URLs und Quellen. Wie OpenClaw Halluzinationen mit Architektur statt Prompt-Engineering loest. Erfahrungsbericht.

Das Problem: Ihr KI-Agent lügt Sie an

Stellen Sie sich vor: Sie fragen Ihren KI-Agenten nach aktuellen Lieferketten-Risiken. Er antwortet mit drei Quellen, konkreten Zahlen und plausiblen URLs. Alles klingt professionell — bis Sie die Links öffnen. Keiner funktioniert. Die URLs existieren nicht. Die Zahlen sind erfunden.

Das ist kein Randproblem. Es ist der Normalfall, wenn lokale Sprachmodelle auf Web-Suche treffen. Solche Herausforderungen adressiere ich in meiner KI & Automatisierungs-Beratung.

In der OpenClaw-Serie haben wir bereits beschrieben, wie unser KI-Agent funktioniert. In diesem Artikel geht es um das technisch anspruchsvollste Problem, das wir lösen mussten: Halluzination bei der Web-Suche.

Warum lokale Modelle Suchergebnisse erfinden

Ein Cloud-Modell wie GPT-4 hat Milliarden Parameter und wurde explizit auf Tool-Nutzung trainiert. Ein lokales 24B-Modell — wie unser Mistral Small auf einer einzelnen GPU — muss mit einem Bruchteil der Kapazität auskommen.

Was passiert, wenn so ein Modell eine Web-Suche ausführt:

  1. Das Modell liest Titel und Snippet der Suchergebnisse
  2. Es “ergänzt” fehlende Informationen aus seinem Trainingsmaterial
  3. Es erfindet plausible URLs, die zum Kontext passen — aber nicht existieren
  4. Es präsentiert alles als Fakt, ohne zwischen echten und erfundenen Daten zu unterscheiden

Das Tückische: Die Antworten klingen überzeugend. Erst bei der Überprüfung fällt auf, dass die Quellen Phantasie sind.

Warum Prompt-Engineering nicht reicht

Der erste Instinkt: dem Modell sagen, es soll nicht halluzinieren.

“Erfinde keine URLs. Nutze nur echte Suchergebnisse. Gib zu, wenn du etwas nicht weißt.”

Wir haben das getestet. Dutzende Varianten, unterschiedliche Formulierungen, verschiedene Sprachen. Das Ergebnis: Prompts reduzieren das Problem um vielleicht 30% — aber eliminieren es nicht. Das Modell “vergisst” die Anweisung, sobald es in den Antwort-Modus wechselt.

Die Erkenntnis war klar: Das Problem ist architektonisch, nicht linguistisch.

Die Lösung: Drei Schichten gegen Halluzination

1. Strikte Tool-Trennung

In OpenClaw generiert das Sprachmodell niemals Suchergebnisse. Die Web-Suche läuft über ein separates Tool — eine DuckDuckGo-Integration in Python, die echte HTTP-Requests absetzt und strukturierte Daten zurückgibt:

  • Titel (verifiziert)
  • URL (aus dem tatsächlichen HTML geparst)
  • Snippet (direkt von der Suchmaschine)

Das Modell konsumiert diese Daten. Es produziert sie nicht. Das ist der fundamentale Unterschied.

2. Auto-Fetch: Vom Snippet zum echten Inhalt

Die wirksamste Maßnahme war überraschend einfach: Nach jeder Suche holt das System automatisch den Inhalt der Top-Ergebnisse.

Statt nur Snippets zu sehen, arbeitet das Modell mit dem tatsächlichen Seiteninhalt. Es muss nichts mehr “ergänzen” — die Information liegt vor.

Eine einfache Auto-Fetch-Kette war effektiver als zehn Zeilen Prompt-Instruktionen.

3. Duplikat-Erkennung gegen Endlosschleifen

Ein typisches Halluzinations-Muster: Das Modell führt dieselbe Suche dreimal hintereinander aus, weil es mit dem Ergebnis nicht zufrieden ist — und erfindet beim dritten Anlauf eigene Resultate.

Unsere Lösung: Ein Deduplizierungs-Mechanismus erkennt identische Tool-Aufrufe und gibt das bereits vorhandene Ergebnis zurück, statt die Suche zu wiederholen. Das bricht Halluzinations-Schleifen zuverlässig.

Welche Modelle funktionieren — und welche nicht

Aus unserer Erfahrung mit Multi-Agent-Szenarien eine ehrliche Einordnung:

  • Unter 14B Parameter: Unzuverlässig. Modelle halluzinieren Tool-Aufrufe und produzieren Format-Fehler.
  • 14-24B Parameter: Grenzwertig. Funktioniert mit niedrigem Temperature-Wert, aber nicht konsistent.
  • Ab 24B Parameter: Stabil. Unser Mistral Small 24B (AWQ-quantisiert) liefert zuverlässige Tool-Aufrufe.

Der Temperature-Wert ist entscheidend: Höhere Werte erhöhen die Halluzinations-Rate bei Tool-Calls drastisch. Für produktive Anwendungen empfehlen wir Temperature 0.1-0.3.

Was bedeutet das für Ihr Unternehmen?

Wenn Sie KI-Agenten einsetzen — ob lokal oder über Cloud-APIs — ist Web-Suche ein kritischer Punkt:

  • Vertrauen Sie keiner KI-generierten URL, ohne sie zu verifizieren
  • Architektonische Guardrails sind wirksamer als Prompt-Anweisungen
  • Lokale Modelle brauchen mindestens 24B Parameter für zuverlässiges Tool-Calling
  • Auto-Fetch-Ketten sind die beste Waffe gegen erfundene Quellen

Das Halluzinations-Problem ist lösbar — aber nicht durch bessere Prompts, sondern durch bessere Architektur.


Nächster Schritt

Sie evaluieren KI-Agenten für Ihr Unternehmen und wollen sichergehen, dass die Ergebnisse stimmen? Ich zeige Ihnen, worauf es ankommt.

Erstgespräch vereinbaren — kostenfrei

→ Oder zuerst mehr lesen: KI im Mittelstand — wo es wirklich hilft

Über den Autor René Pfisterer

10+ Jahre Erfahrung in ERP-Integration, Datenmigration und Prozessautomatisierung für den Mittelstand. Spezialisiert auf DATEV, SAP und KI-Implementierung.

Vollständiges Profil →
← Vorheriger Beitrag 0 Euro API-Kosten: Wie wir einen KI-Agenten auf einer einzigen GPU betreiben Nächster Beitrag → Inside OpenClaw #2: Die versteckten vLLM-Flags für Mistral

Interesse geweckt?

Lassen Sie uns in einem kurzen Gespräch klären, ob und wie ich helfen kann.