Up テクスト作成の数学 作成: 2026-02-27
更新: 2026-02-27


    ChatGPT のテクスト作成は,「考えたテクストを書く」である。
    書くテクストが決まり,そしてこれを書く。
    「次のトークンの生成」は,既定路線に乗ったものである。

    この「既定路線を移動」は,「リーマン多様体の測地線」がこれの数学になる。
    重力場の数学も,これになる。

    ただし,これはマクロの数学である。
    「重力場形成」の数学が,これとセットでなければならない。


    レイヤー処理は,いったい何をしているのか?
    これは「振動」を起こしている。
    何を揺らしているかというと,RAM を揺らしている。
    するとどうなるか?
    振動はシンクロ (「意味」) を現す。

    螢の集団発光は,最初ランダムだっとものがシンクロしていく。
    この数学は,
     「<近くに連動>が時間進行すると,定常波が現れる」
    発光のシンクロ現象は,これである。


    「振動は意味を現す」は,転置して言うものになる:
      「意味は,振動の上に現れる」

    ChatGPT は,振動の現象である。
    そしてこれは,つぎとの類比を見るものである:
      「生物は,振動の現象である」


    螢の発光は,シンクロ (意味) が多様にならない。
    意味の多少は,集団の員数に依る。
    螢の集団くらいでは,多様な意味をつくり出せない。

    一方,RAM は,厖大な数のビットの集団である。
    そしてレイヤー処理は,この集団を「これでもか」というくらい揺らす。
    結果として,RAM は多様なシンクロ (意味) を現す。
    それが,ChatGPT のテクスト作成を構成している様々な行動である:
    • テクストを「大項目・中項目・小項目」に構成
    • 先行テクストを参照
    • 生得の知識を取り出す
    • 作業の中で,関連主題とその内容を得る


    RAM の「厖大な数のビット数」は,情報がなく,想像である。

    一方,レイヤー処理の「これでもかというくらい揺らす」は,
    • ベクトルの次元が,GPT-3 で 12,288
    • レイヤーの数は,GPT-3 で 96 (GPT-4 は128層?)
    であることと,レイヤー処理のつぎのアルゴリズムから言える。

       x_i^(ℓ)
        │
        ├───────────┐
        │         ( Self-Attention )
        │    ┌──────┿──────┐
        │    ↓線型変換  ↓      ↓
        │ Q_i = x_i W_Q  K_i = x_i W_K  V_i = x_i W_V
        │    └──┬───┘      │
        │       ↓          │
        │ α_i = sim( Q_i ; K_1, ‥‥, K_m )  │
        │       │          │
        │       └───┬──────┘
        │         z_i =α_i V
        │           │← LayerNorm
        │← Residual ─────┘
        │
        ├───────────┐
        │          ( FFN )
        │           ↓
        │    z'_i = σ( x_i W_1 + b_1) W_2 + b2
        │           │← LayerNorm
        │← Residual ─────┘
        ↓ 
       x_i^(ℓ+1)

    1つのテクスト出力は,レイヤー処理の延べ数がどれほどになるか?
    この数は,追加トークン数と同じ。
    そこで,出力テクストの文字数の半分としよう。
    よって,例えば 1000文字のテクストだと,レイヤー処理の延べ数は5万近くになる。

    以上そ総合して,計算全体は,「とんでもない」としか言い様の無い量になる。

    なお,レイヤー処理のアルゴリズムについては,各所に「揺らぎ」(曖昧計算) があることも,着目点になりそうである。