Up 訓練アルゴリズム 作成: 2026-05-14
更新: 2026-05-17


    訓練には多くの手法があるが,ロボットでよく使われるのはつぎの 3つ:
    1. PPO(Proximal Policy Optimization)
      最もよく使われる
      安定して学習できる
      4足歩行ロボットの標準

    2. SAC
      滑らかな動作が得意
      エネルギー効率の良い動きが得意
      ロボットアームでよく使われる

    3. TD3
      精密な制御が得意
      ノイズに強い
      実機ロボットで使われることが多い


    本テクストは,訓練を PPO の場合で論じる。