Moonborn — Konsistenz

Den Charakter erkennbar halten?

Konsistenz ist kein Nebeneffekt eines guten Prompts. Moonborn misst den Ton des Charakters, testet ihn unter Druck und verfolgt, ob neue Antworten weiterhin wie dieselbe Person wirken.

Konzept 1

Drift Detection

Wenn ein Charakter beginnt, sich von seinem Ton oder seiner Verhaltenslinie zu entfernen, kann Moonborn das erkennen, bevor die Antwort den Nutzer erreicht.

Am Anfang eines Gesprächs kann ein Charakter genau wie definiert sprechen. Dreißig Turns später kann er in einen neutralen Assistententon abgerutscht sein. Drift Detection vergleicht neue Antworten mit der Character Baseline und markiert den Moment, in dem die Abweichung zu groß wird.

Limit. Drift Detection misst Charakter- und Verhaltenskonsistenz. Faktische Richtigkeit prüft sie nicht allein.

Konzept 2

Voice Fingerprint

Jeder Charakter besitzt eine Referenzsignatur, die daraus abgeleitet wird, wie er in verschiedenen Szenarien spricht.

Moonborn prüft den Charakter mit verschiedenen Prompts und verwandelt das entstehende Sprachmuster in eine Referenzsignatur. Spätere Antworten werden mit dieser Signatur verglichen; so wird Drift gemessen statt geraten.

Limit. Wenn sich der beabsichtigte Sprechstil ändert, sollte der Fingerprint neu berechnet werden. Ändern sich nur Oberflächendetails wie Name oder Ort, bleibt er meist stabil.

Konzept 3

Stresstest vor dem Launch

Bevor ein Charakter live geht, kann Moonborn Tests ausführen, die ihn gezielt unter Druck setzen: Role-Break-Versuche, Widersprüche, Druck-Prompts und Grenztests.

Ein Test versucht, den Charakter aus der Rolle zu ziehen. Ein anderer fordert ihn auf, einer früheren Antwort zu widersprechen. Ein weiterer testet Sicherheitsgrenzen. Die Ergebnisse zeigen, wo der Charakter standhält und wo er bricht.

Limit. Eingebaute Tests decken allgemeine Robustheit ab. Medizinische, rechtliche, finanzielle und andere regulierte Bereiche sollten eigene domänenspezifische Testsets und Policy-Kontrollen ergänzen.

Was gemessen wird und was nicht

Diese Schicht misst, ob der Charakter weiterhin wie derselbe Charakter handelt. Die folgenden Bereiche benötigen separate Sicherheits- und Qualitätsschichten:

Faktische Richtigkeit und Halluzinationskontrolle.
Toxicity, Policy-Verstöße und Plattformsicherheit.
Risiko der Imitation realer Personen.
PII-Leaks und Richtlinien zur Datenmaskierung.