ChatGPT 探求 : 力 : 言語ゲームAI : 画像生成

言語ゲームAI の画像生成のしくみ

作成: 2026-01-24
更新: 2026-01-28

非言語ゲーム型の画像生成

画像トークンの数 K (任意) を決める

　　例：K = 8,192 / 16,384 / 65,536 など
Ｋ個の画像トークンベクトル (埋め込みベクトル) をつくる
初期値として，ランダムな値を入れる。

備考：	テクストトークベクトルの場合は，先ず，扱うトークンを決め，それと同じ数のトークンベクトルを作成した。

→	画像トークンベクトルに対し, "codebook vector" の呼称

画像Ｘを小さなパッチに分解
エンコーダ (VAE, CNN/Vision Encoder)
各パッチ x に対し｢パッチベクトル｣ z(x) をつくる。
（画像トークンベクトルと同次数のベクトル）　　
VQ (Vector Quantization)
z(x) と距離が最も近い画像トークンベクトル e_k (ID が k の画像トークンベクトル) を，求める。
(「画像を、既存の離散語彙に押し込む」) 　　
デコーダ
e_k から画像を生成 → Ｘ' 　　
Ｘ' をＸと比べて，各 e_k の値を調整
Reconstruction loss + codebook loss の処理

通説は，自己回帰プロセスを，
　　＜つぎのトークン＞を確率で導くプロセス
だと教える。
しかし，文脈整合的なテクストは，「トークンを確率でつないでいく」の方法では，つくれない。
＜つぎのトークン＞の出力は，プロセスがすることの１つであって，全てではない。
文脈整合的なテクストの生成は，つぎのようでなければならない：
1. 作成するテクストが先ず定まる
　（テクスト生成の惰性が決まる)
2. このテクストを，トークン生成で現していく
　（テクスト生成の惰性に乗って，トークン生成)
3. トークン生成は，その都度，テクスト全体へのフィードバック