| Up | 応答内容のチェック | 作成: 2026-04-24 更新: 2026-04-24 |
フィルタは,LLM の不適切な応答をブロックする。 ユーザのブラウザに表示されるテキストは, LLM の逐次生成のトークンではなく, フィルタを通過した後のテキスト。 後処理フィルタの検出対象: 差別的表現 個人情報の生成 暴力的・性的な内容 法的に問題のある指示 モデルの内部情報の露出 これらを検出すると,つぎの処理をする: あるいは全体を差し替え あるいは「安全なメッセージ」に置き換え 処理プロセス これは,「意味単位の逐次処理」。 「全体生成 → 後チェック → 書き直し」 は,つぎの理由から,採用されていない: ・LLM のテクスト生成構造と相性が悪い ・ユーザ体験が悪化する (待ち時間が長くなる) ここで 「相性が悪い」 とは: ・書き直しのたびに文脈が変わり,整合性が崩れる 意味が変わる 不自然な文章になる 再び危険な内容を生成する可能性がある |