| Up | OpenAI : Sora" | 作成: 2026-01-28 更新: 2026-01-28 |
Transformer+拡散モデル の動画生成モデル。 (「純Transformer」に対して,ハイブリッド型) ○ 課題 ○ 出力 (現時点) ○ 品質 ○ 限界 (計算コストの爆発) ○ 基本設計(公式概要) モデル規模のスケーリング テキスト理解 指示順守 ノイズから高品質映像を段階的に生成 これは DALL·E などの画像生成と同じ方向性だが, 時間軸(連続したフレーム)を扱う能力が加わる。 ・Space-Time アプローチ
そこで,時空間全体をモデル化する (Space-Time, Transformer統合) 全フレームを同時に処理する フレーム列をパッチ化し,トークン化 (パッチ化・トークン化は,画像と同様の方法論) Space-Time U-Net などの 時空間表現を扱うネットワークを設計 ・統一データ表現
テキスト指示,画像,動画をすべて同一の Transformer パッチ表現にマッピング ・物理的整合性 (因果と連続性)
現実ではあり得ない動きや物体の変形(モーフィング)を抑えるために,物理法則の Training を強化。 ○ モバイル向けの軽量化研究 ・問題
時間方向トークンの結合 ・方法
動的メモリロード 反復ステップ削減 |