Up OpenAI : Sora" 作成: 2026-01-28
更新: 2026-01-28


    Sora は,
      Transformer+拡散モデル
    の動画生成モデル。
    (「純Transformer」に対して,ハイブリッド型)


    課題
    • 時間方向の一貫性 (物体の継続性など)
    • ユーザ指示忠実性


    出力 (現時点)
    • 最大約1分 の動画を
    • 視覚的一貫性を保持しながら生成


    品質
    • 生成が非常に遅い場合があるという声(数分〜数十分)
    • 指示に忠実でない,連続性が不十分という不満


    限界 (計算コストの爆発)
    • ゲーム型画像生成は,原理的には可能だが,社会的には破産する。
    • Sora は,“賢さ” よりも “電力と計算量の露呈” を可視化してしまう存在


    基本設計(公式概要)
    ・Transformer ベース/拡散モデル統合
     ・GPT 系の Transformer アーキテクチャ
        モデル規模のスケーリング
        テキスト理解
        指示順守   
     ・映像生成部は 拡散モデル(Diffusion Model)
        ノイズから高品質映像を段階的に生成

      これは DALL·E などの画像生成と同じ方向性だが,
      時間軸(連続したフレーム)を扱う能力が加わる。

    ・Space-Time アプローチ
      逐次的にフレームを重ねる方法では,物体の継続性や運動の連続性を扱えない。,
      そこで,時空間全体をモデル化する
      (Space-Time, Transformer統合)

      全フレームを同時に処理する
      フレーム列をパッチ化し,トークン化
      (パッチ化・トークン化は,画像と同様の方法論)
      Space-Time U-Net などの 時空間表現を扱うネットワークを設計

    ・統一データ表現
      動画も画像も 小さなパッチ(patch) の集合として扱う
      テキスト指示,画像,動画をすべて同一の Transformer パッチ表現にマッピング

    ・物理的整合性 (因果と連続性)
      物理的な動きやオブジェクトの継続性を高めるような損失関数・訓練目的をもたせる
      現実ではあり得ない動きや物体の変形(モーフィング)を抑えるために,物理法則の Training を強化。


    モバイル向けの軽量化研究
    モバイル上で Sora 風の動画生成を可能にする。

    ・問題
      生成の計算量削減
      時間方向トークンの結合

    ・方法
      Temporal Token Merging
      動的メモリロード
      反復ステップ削減