○ DALL·E 2, 2022年
初代DALL·EがTransformerによるオートレグレッシブ生成だったのに対し、
DALL·E 2では
拡張現実世界でのCLIPモデル
を活用した2段階方式(通称「unCLIP」)が採用されています。
具体的には、まず
テキストから
CLIPの画像埋め込みベクトルを生成する
Priorモデル
を用意し、
次に
その画像埋め込みから
実際の画像を生成する
Decoderモデル(拡散モデル)
を訓練する構成です。
このように画像の中間表現(CLIP埋め込み)を明示的に生成させることで、画像の多様性が向上しつつテキストとの整合性も保たれることが示されています。
実際、OpenAIの研究では「画像表現を明示的に生成することにより、フォトリアリズムをほぼ損なうことなく画像の多様性が改善された」と報告されています。
DALL·E 2のDecoderは拡散モデルベースであり、クラス条件付き拡散モデルGLIDEの発展形といえます。
CLIPで得た画像埋め込みを条件に、ノイズから画像を逐次生成するもので、256×256pxの画像をまず出力し、その後2段階のアップサンプラ拡散モデルで最終1024×1024pxまで高解像度化します。
CLIP埋め込みを条件に使うことで、テキスト記述と画像内容の整合性(例えば「赤いバナナ」と指示すれば赤みを帯びたバナナが出る)が飛躍的に高まりました。
CLIPの共同埋め込み空間を利用するこの方法は他にも画像のバリエーション生成(ある画像と似た別シーンを作る)や画像編集への応用が効き、DALL·E 2は単なる生成だけでなくインペインティング(穴埋め)や画像類似検索的な操作も可能になっています。
学習データに関して、DALL·E 2は独自に収集・フィルタリングした数億規模の画像テキストペアを使用したとされています(詳細なソースは非公開ですが、OpenAIは暴力・成人向け・政治的な画像を除外したと述べています)。
モデル規模は、Priorが約3億パラメータの拡散モデル、Decoder(画像生成拡散モデル)が約35億パラメータと推定されており、大規模ではあるものの初代DALL·Eの120億Transformerよりは小型化されています。
この背景には、CLIPの強力な表現能力によって必要なモデル容量が減ったこと、及びDiffusionモデルのサンプル効率の良さがあるでしょう。
○ DALL·E 3, 2023年
DALL·E 3ではテキスト解釈能力をさらに向上させ、ChatGPTと統合することでユーザーが複雑な要求を対話的に指定可能になりました。
技術詳細は未公表ですが、論文によれば「より質の高いキャプションで訓練しなおす」ことでモデルがプロンプトのニュアンスを細部まで反映できるようになったとしています。
例えばDALL·E 2では難しかった文字列の正確な描写や、複数物体の配置関係の理解などが改善されたとのことです。
評価ではCLIPスコアなどテキスト画像類似性指標で他モデルを上回り、人間評価でもMidjourney v5やStable Diffusion XLより好まれる結果が報告されています。
DALL·EシリーズはクローズドなAPI提供のみですが、その技術インパクトは非常に大きく、画像生成AIの可能性を世に示した存在です。
特にDALL·E 2の登場以降、拡散モデル+CLIPという手法がほぼデファクトスタンダードになりました。
|