Up 言語ゲームAI の画像生成のしくみ 作成: 2026-01-24
更新: 2026-01-28


    言語ゲーム型の 「画像生成AI」 は,現時点では,
       純 Transformer 型
       (Image GPT 系列の発想)
    だけである。
    ここでは,純 Transformer 型の画像生成を論じる。


    画像生成AI の Transformer は,自然言語処理の Transformer のテクストトークンに,「画像トークン」が加わった格好になる。

    画像トークンは,テクストのトークンベクトルと同様,埋め込みベクトルとしてつくる:
    1. 画像トークンの数 K (任意) を決める

        例:K = 8,192 / 16,384 / 65,536 など
    2. K個の画像トークンベクトル (埋め込みベクトル) をつくる
      初期値として,ランダムな値を入れる。

     備考: テクストトークベクトルの場合は,
    先ず,扱うトークンを決め,
    それと同じ数のトークンベクトルを作成した。


    画像トークンベクトルは,codebook ライブラリの形で管理される。
     → 画像トークンベクトルに対し, "codebook vector" の呼称

    画像トークンベクトルの値は,"Training" の中で定まっていく。
    "Training" は,画像とこれのキャプション (テクスト) の対を Transformer に入力し,それをただなぞらせる。

    「画像をなぞる」は,つぎの工程:
    1. 画像Xを小さなパッチに分解
    2. エンコーダ (VAE, CNN/Vision Encoder)
      各パッチ x に対し 「パッチベクトル」 z(x) をつくる。
      (画像トークンベクトルと同次数のベクトル)   
    3. VQ (Vector Quantization)
      z(x) と距離が最も近い画像トークンベクトル e_k (ID が k の画像トークンベクトル) を,求める。
      (「画像を、既存の離散語彙に押し込む」)   
    4. デコーダ
      e_k から画像を生成 → X'   
    5. X' をXと比べて,各 e_k の値を調整
      Reconstruction loss + codebook loss の処理

    純Transformer 型では,この全工程を
      VQ-VAE
    の名前で,パックにしている。


    z(x) は,
     「xを中心とした一定範囲において,
      何がどう配置されているか」
    の圧縮表現。

    エンコーダにとって特徴量となるのは,つぎのようなものだろうと推測される:
      配色パターン(色そのもの)
      エッジ方向(縦・横・斜め)
      コントラスト
      テクスチャ(ざらざら/つるつる)
      形の断片(角・曲線・端)
      局所的な「まとまり感」


    "Training" は,画像とキャプションの対を入力して,それをなぞらせるだけ。
    しかし,あら不思議,画像生成 AI が出来てしまう。
    ユーザのプロンプトテクストに対し画像で応答する,というわけである。

    AI の中で何が起こっているのかは,わからない。
    わからないが,結果的に,うまくいっている。


    画像出力は,画像トークン列の出力である。
    画像トークン列の生成は,ChatGPT のテクスト生成と同じ。
    自己回帰のアルゴリズムから,画像トークン列が生成される。

    画像トークンについては,つぎのように説かれているのを見る:
       「画像の背後にある潜在的な確率分布」
    しかし,ソシュールの言語理論に従えば,テクストのトークンと同様,結局は「差異しかない」ことになる。
    Transformer もおそらく,「差異しかない」調で使っているはずである。
    実際,その画像トークンは,「色」 「色合い」として現れるのみである。


    画像トークンを扱う AI は,画家と同じに考えればよい。
    ただ,人間の画家とは違うのは,キャンバスの端から走査する形で色を塗ること。

    これは,ChatGPT のテクスト生成と同じ。
    人間のテクスト生成は,あっちに行ったりこっちに行ったりの書き方になる。
    一方 ChatGPT は,先頭から末尾まで一続きにトークンを置いていく。


    本論考では,テクスト生成について,つぎのように論じてきた:
    • 通説は,自己回帰プロセスを,
        <つぎのトークン>を確率で導くプロセス
      だと教える。
    • しかし,文脈整合的なテクストは,「トークンを確率でつないでいく」の方法では,つくれない。
      <つぎのトークン>の出力は,プロセスがすることの1つであって,全てではない。
    • 文脈整合的なテクストの生成は,つぎのようでなければならない:
      1. 作成するテクストが先ず定まる
       (テクスト生成の惰性が決まる)
      2. このテクストを,トークン生成で現していく
       (テクスト生成の惰性に乗って,トークン生成)
      3. トークン生成は,その都度,テクスト全体へのフィードバック

    これは,画像生成の場合,ますますはっきりする。
    文脈整合的な画像は,「画像トークンを確率でつないでいく」の方法では,つくれない。
    つぎのようでなければならない:
      1. 作成する画像が先ず定まる
       (画像生成の惰性が決まる)
      2. この画像を画像トークン生成で現していく
       (画像生成の惰性に乗って,画像トークン生成)