| Up | 言語ゲームAI の画像生成のしくみ | 作成: 2026-01-24 更新: 2026-01-28 |
純 Transformer 型 (Image GPT 系列の発想) だけである。 ここでは,純 Transformer 型の画像生成を論じる。
非言語ゲーム型の画像生成
画像生成AI の Transformer は,自然言語処理の Transformer のテクストトークンに,「画像トークン」が加わった格好になる。 画像トークンは,テクストのトークンベクトルと同様,埋め込みベクトルとしてつくる:
画像トークンベクトルは,codebook ライブラリの形で管理される。
画像トークンベクトルの値は,"Training" の中で定まっていく。 "Training" は,画像とこれのキャプション (テクスト) の対を Transformer に入力し,それをただなぞらせる。 「画像をなぞる」は,つぎの工程: 純Transformer 型では,この全工程を VQ-VAE の名前で,パックにしている。 z(x) は, 「xを中心とした一定範囲において, 何がどう配置されているか」 の圧縮表現。 エンコーダにとって特徴量となるのは,つぎのようなものだろうと推測される:
エッジ方向(縦・横・斜め) コントラスト テクスチャ(ざらざら/つるつる) 形の断片(角・曲線・端) 局所的な「まとまり感」 "Training" は,画像とキャプションの対を入力して,それをなぞらせるだけ。 しかし,あら不思議,画像生成 AI が出来てしまう。 ユーザのプロンプトテクストに対し画像で応答する,というわけである。 AI の中で何が起こっているのかは,わからない。 わからないが,結果的に,うまくいっている。 画像出力は,画像トークン列の出力である。 画像トークン列の生成は,ChatGPT のテクスト生成と同じ。 自己回帰のアルゴリズムから,画像トークン列が生成される。 画像トークンについては,つぎのように説かれているのを見る: 「画像の背後にある潜在的な確率分布」 Transformer もおそらく,「差異しかない」調で使っているはずである。 実際,その画像トークンは,「色」 「色合い」として現れるのみである。 画像トークンを扱う AI は,画家と同じに考えればよい。 ただ,人間の画家とは違うのは,キャンバスの端から走査する形で色を塗ること。 これは,ChatGPT のテクスト生成と同じ。 人間のテクスト生成は,あっちに行ったりこっちに行ったりの書き方になる。 一方 ChatGPT は,先頭から末尾まで一続きにトークンを置いていく。 本論考では,テクスト生成について,つぎのように論じてきた: これは,画像生成の場合,ますますはっきりする。 文脈整合的な画像は,「画像トークンを確率でつないでいく」の方法では,つくれない。 つぎのようでなければならない: (画像生成の惰性が決まる) 2. この画像を画像トークン生成で現していく (画像生成の惰性に乗って,画像トークン生成) |