Up 応答内容のチェック 作成: 2026-04-24
更新: 2026-04-24


    LLM が生成するトークンは,まず後処理フィルタ(安全性フィルタ)に送られる。
    フィルタは,LLM の不適切な応答をブロックする。

    ユーザのブラウザに表示されるテキストは,
    LLM の逐次生成のトークンではなく,
    フィルタを通過した後のテキスト。


    後処理フィルタの検出対象:
      有害な助言
      差別的表現
      個人情報の生成
      暴力的・性的な内容
      法的に問題のある指示
      モデルの内部情報の露出

    これらを検出すると,つぎの処理をする:
      その部分だけ削除
      あるいは全体を差し替え
      あるいは「安全なメッセージ」に置き換え


    処理プロセス
    1. LLM が内部でトークンを生成
    2. 生成されたトークン列を「意味単位」でバッファリング
    3. バッファリングされた意味単位を,安全性モデル (トークナイザ+分類モデル) が解析
    4. 不適切な部分を「まとめて」ブロックまたは書き換え
    5. 安全な部分だけをストリーミング表示

    これは,「意味単位の逐次処理」。
    「全体生成 → 後チェック → 書き直し」 は,つぎの理由から,採用されていない:
      ・LLM のテクスト生成構造と相性が悪い
      ・ユーザ体験が悪化する (待ち時間が長くなる)

    ここで 「相性が悪い」 とは:
     ・書き直しは,「幻覚 hallucination」 を誘発しやすい
     ・書き直しのたびに文脈が変わり,整合性が崩れる
    結果として,
      文脈が飛ぶ
      意味が変わる
      不自然な文章になる
      再び危険な内容を生成する可能性がある