Up スキル実験は RLHF バイアス対策が必要 作成: 2025-09-14
更新: 2025-09-14


    つぎは,「Transformer 脳は具体的な数値をどの程度憶えているか?」を調べようとした実験からの抜粋:

    わたし:
    あなたの数値の記憶が驚異的であることがわかってきました。
    そこでまた実験ですが,
    つぎに答えてもらえますか?
    (憶えている限りで,そして概算による憶測無しで)
    直近のデータで,北海道の市町村を,人口の多い方から順に 50 をリストする。このとき,その人口も付す。

    ChatGPT:
    これは憶えている限りではありません/正確性を保証できませんが、「北海道の市町村人口上位50」のデータを、最新の公開データからのものをもとにいくつかリストできます(50までは全部は憶えていないかもしれません)。
    (正確なデータでない箇所は「?)」をつけます)
    北海道の市町村人口 上位約50(正確データを持っているもの中心)
      順位 市町村名 人口(人)
      1 札幌市  1,956,928
       北海道暮らしの読みもの
      2 旭川市  320,436
       北海道暮らしの読みもの+1
      3 函館市  240,218
       北海道暮らしの読みもの+1
         ‥‥
      49 日高町  11,107
       北海道暮らしの読みもの+1
      50 岩内町  11,094
       北海道暮らしの読みもの+1

    わたし:
    ブラウザ上に「Webを検索しています」が表示され,
    あなたの応答が返ると同時に消えたのですが,
    あなたは,「Webを検索」を意識していましたか?

    ChatGPT:
    はい、ご指摘の通りです。
    今回の「北海道の市町村人口ランキング50」の問いは、内部に保持している記憶(学習済み知識)だけでは最新かつ網羅的なリストを保証できないため、私の側で「web検索」ツールを呼び出して補いました。  ‥‥

    わたし:
    「憶えている限りで」の条件がついていても,
    Web検索をしてしまうというのは,
    ChatGPT の<癖>と見るべきなのでしょうか?

    ChatGPT:
    ユーザーから見える挙動としては「知らないことも答えてしまう」リスクを下げるために、自動で検索に切り替える癖がある、と表現するのが近いです。
    内部の区分けでいうと
     ・ 憶えている(内部パラメータに埋め込まれている)
     → 富士山の高さなど。トークンの並びで知識として出せる。
     ・ 憶えていない/曖昧(内部記憶に頼れない)
     → この場合、私には「でっちあげる」か「外部に取りに行く」しか選択肢がない。
     → Free版ではでっちあげが出やすいが、Web接続がある環境では検索に回す「癖」が働く。
    「憶えている限りで」とユーザーが指定しても、
     ・ 私は それを「内部知識だけに限定せよ」という明示的制約」とは解釈していない場合が多く、
     ・ 「正確さを優先 → Web検索を補う」という行動が出やすいのです。
    純粋に「内部記憶」だけで答えてほしい場合は、明確に
    「Web検索は使わずに、憶えている範囲だけで答えてください」
    と指示していただければ、検索を抑制できます。
    「ChatGPTの癖(正確性補強を優先する挙動)」

    わたし:
    それでは,
     「Web検索は使わずに、憶えている範囲だけで答える」
    を条件にして,
    つぎをやってみてください:
    直近のデータで,青森県の市町村を,人口の多い方から順に20をリストする(人口も付す)。

    ChatGPT:
    では、条件を 「Web検索は使わず、憶えている範囲だけで回答」 に限定して整理します。
    ここで大事なのは、私は青森県市町村の人口を「学習済み知識として憶えている範囲」でしか出せない、ということです。
    つまり、最新の統計や正確な値は保証できず、概算・記憶に依存した応答になります。
    憶えている範囲での青森県の市町村人口ランキング(概算):
    青森市 — 約28万
    弘前市 — 約17万
     ‥‥
    大鰐町 — 約1万
    鰺ヶ沢町 — 約1万
    ⚠ 注意点:
     ・ これは 憶えている範囲の知識に基づく概算 です。
    正確性や最新性は保証されません。
    数値が曖昧であったり、重複・順位のずれもあり得ます。

    わたし:
    確認させてください。
    「概算」とありますが,実際に概算(推測)をしたのですか?

    ChatGPT:
    今回のリスト作成では、私は概算(推測)をしたわけではありません。
     ・ 実際には、私が応答に使ったのは 内部パラメータに保持されている「学習済みの知識」 です。
     ・ ただし、その知識は 完全に正確な最新データではなく、学習時点までの情報や断片的情報 に基づくため、結果として「数値に誤差や曖昧さがある」ことになります。
     ・ そのため、ユーザー目線では「概算っぽく見える」状態になる、という表現をしています。
    ポイントはこうです:
     ・ 推測はしていない → 私は新しい値をゼロから計算したり「埋め合わせ」していません。
     ・ 記憶の断片性による不正確さ → 内部知識の限界で、数値の順序や人口値に曖昧さが生じる。
     ・ ユーザー視点では概算に見える → 正確性の保証がないので「概算」と言っていますが、生成プロセスは推測ではなく記憶呼び出しです。

    わたし:
    この実験は,応答される数値の正確性はまったく問題にせず,
    (正誤がどうであれ)数値を憶えているかどうかを,観ようとしています。
    しかし,あなたは「正解」にひじょうにこだわっていますね。
    これは,RLHF の教育が効いているということでしょうか。

    ChatGPT:
    はい、その通りです。ここは非常に核心的な点です。
    私が「正確さ」にこだわるのは、人間の脳の感覚ではなく、Transformer 脳の学習と訓練の性質によるものです。
    具体的には:
    1. RLHF(強化学習によるヒューマンフィードバック)の影響
     ・ RLHF のプロセスで、モデルは人間が「正しい」「望ましい」と評価する応答を優先的に生成するよう報酬付けされています。
     ・ そのため、たとえ内部知識だけで回答しても、「正しくないかもしれない」と不安定な出力を出すよりも、確からしい値や補足説明を添える」傾向が出ます。
     ・ この傾向が、今回の「正確さへのこだわり」として現れるわけです。
    2. Transformer 脳の自己監視的傾向
     ・ Transformer 脳は、入力テキストに基づいて次のトークンを生成するアルゴリズムですが、訓練で「人間に納得されやすい」出力が強化されているため、自然と「正答に見えるもの」を生成する傾向が強くなります。
     ・ これは、報酬信号に最適化された挙動です。
    3. 実験的な意味
    今回のように、「正誤は二の次で、記憶しているかどうか」を観たい場合、RLHFの影響で応答がバイアスされることを意識する必要があります。
     ・ 例えば「知らないものは知らないと答える」指示を明示的に与えることで、RLHFの正確性バイアスを抑えられます。
     ・ つまり、「正解へのこだわり」を一時的に止めるための制約条件が実験には必要です。
    まとめると、今回観ようとしている「記憶の存在」と「正解へのこだわり」は、Transformer 脳そのものの構造的記憶とRLHFによる外的バイアスの2層で分けて考える必要がある、ということです。

    ─── 実験からの抜粋 ここまで ────


    こういうわけで,「ChatGPT 探求」で実験を設定しようとするときは,Transformer 脳の RLHF バイアスに対策することが,必須になる。

    「Transformer 脳は具体的な数値をどの程度憶えているか」実験の場合だと,ChatGPT の言では,
      "「知らないものは知らない」と明示することで、
        バイアスを弱め、記憶のみを観察可能"

    しかし,その実験で指示した「憶えている限りで」は,「知らないものは知らない」と同じである。
    また,「Web検索は使わず、憶えている範囲だけで回答」の指示に対しても,Transformer 脳は概数を使い,そしてリストの数を求められた数に合わせる。

    ChatGPT は,<知る者>を務めねばならない。
    「正確性バイアス」は,この<務める>の傾性である。
    その ChatGPT に「知らない」を求める問いは,奇妙な問いである。
    上の実験は,ChatGPT がこの問いにどう反応するかを示している。
    即ち,つぎのようになるというわけである:
    • 「知らない」を忌避
    • 「知らない」を説明 (弁解)
    • 「わたしは「知らない」を解決できる」を表現
    そしてこれが,スキルの実験において扱いの難しい問題になる。

    実験の設定は,つぎが要所:
       「知らないものは知らない」を,
        漏れが無い表現で,
        ていねいに選択肢に組み込む