Up 並列学習 作成: 2026-05-15
更新: 2026-05-15


    4足歩行ロボットの訓練では,並列方式が一般的:
     ・並列シミュレーション
        複数の環境を同時に動かす
     ・進化的手法
        複数のポリシー (脳) を同時に学習させる
     ・ドメインランダム化
        複数の初期条件・パラメータで学習させる

    これは,つぎのようになる:,
      「たくさんのロボットを仮想空間に並べて,
       それぞれが勝手に学ぶ」


    ○ 並列シミュレーション(Parallel Simulation)
    これは,強化学習の標準的なやり方で,
      1つのロボットを1つの環境で学習させるのではなく
      100〜10,000体のロボットを同時に動かす

    例:
    NVIDIA Isaac Gym では,1 GPU で 4096 体のロボットを同時に学習できる。

    つぎのメリットがある:
      データ収集が高速化
      多様な状況を同時に経験
      学習が安定する


    ○ 複数モデルを並行して学習(Evolutionary RL)
    これは 進化戦略(Evolution Strategy) と呼ばれる手法で,ロボティクスでよく使われている:
      10〜100個のポリシー (脳) を用意
      それぞれが Sim 内で歩行を学ぶ
      最も優秀なポリシーを選ぶ
      そのポリシーを少し変異させて次世代を作る
      これを繰り返す


    ○ ドメインランダム化
    Sim-to-Real では,Reality Gap が問題になる:
      摩擦
      重力
      モータ性能
      センサー誤差

    これらをランダムに変えた複数環境を,同時に学習させる。
    こうすることで,どんな環境でも動ける頑丈で壊れにくい Sim-to-Real が成功しやすい。

    これも,
     「異なる世界で育った複数のロボットを同時に訓練」
    ということで,「並列学習」の一種と見なせる。