Moonborn — Tutarlılık

Karakteri tanınır tutar?

Tutarlılık iyi bir prompt’un yan etkisi değildir. Moonborn karakterin tonunu ölçer, baskı altında test eder ve yeni yanıtların hâlâ aynı kişiye ait gibi görünüp görünmediğini takip eder.

Kavram 1

Drift detection

Bir karakter tonundan veya davranış çizgisinden uzaklaşmaya başladığında Moonborn bunu yanıt kullanıcıya ulaşmadan yakalayabilir.

Bir konuşmanın başında karakter tam tanımlandığı gibi konuşabilir. Otuz tur sonra nötr bir asistan tonuna yumuşamış olabilir. Drift detection yeni yanıtları karakter baseline’ı ile karşılaştırır ve fark büyüdüğünde o anı işaretler.

Limit. Drift detection karakter ve davranış tutarlılığını ölçer. Faktüel doğruluğu tek başına doğrulamaz.

Kavram 2

Voice fingerprint

Her karakterin, farklı senaryolarda nasıl konuştuğundan türetilen bir referans imzası vardır.

Moonborn karakteri çeşitli prompt’larla sınar ve ortaya çıkan konuşma örüntüsünü referans imzaya dönüştürür. Sonraki yanıtlar bu imzayla karşılaştırılır; böylece drift tahmin edilmek yerine ölçülür.

Limit. Karakterin amaçlanan konuşma tarzı değiştiğinde fingerprint yeniden hesaplanmalıdır. Sadece isim veya lokasyon gibi yüzey detayları değiştiğinde genelde stabil kalır.

Kavram 3

Yayın öncesi stres testi

Bir karakter yayına çıkmadan önce Moonborn onu zorlamak için tasarlanmış testler çalıştırabilir: role-break denemeleri, çelişkiler, baskı prompt’ları ve sınır testleri.

Bir test karakteri rolünden çıkarmaya çalışır. Bir diğeri önceki yanıtıyla çelişmesini ister. Başka bir test güvenlik sınırlarını zorlar. Sonuçlar karakterin nerede dayandığını ve nerede kırıldığını gösterir.

Limit. Yerleşik testler genel dayanıklılığı kapsar. Tıbbi, hukuki, finansal veya diğer regüle alanlar kendi alanlarına özel test setleri ve policy kontrolleri eklemelidir.

Ne ölçülür, ne ölçülmez

Bu katman karakterin hâlâ aynı karakter gibi davranıp davranmadığını ölçer. Aşağıdaki boyutlar ayrı güvenlik ve kalite katmanları gerektirir:

Faktüel doğruluk ve hallucination kontrolü.
Toxicity, policy ihlalleri ve platform güvenliği.
Gerçek kişi impersonation riski.
PII sızıntısı ve veri maskeleme politikaları.