Up
訓練アルゴリズム
作成: 2026-05-14
更新: 2026-05-17
訓練には多くの手法があるが,ロボットでよく使われるのはつぎの 3つ:
1. PPO(Proximal Policy Optimization)
最もよく使われる
安定して学習できる
4足歩行ロボットの標準
2. SAC
滑らかな動作が得意
エネルギー効率の良い動きが得意
ロボットアームでよく使われる
3. TD3
精密な制御が得意
ノイズに強い
実機ロボットで使われることが多い
本テクストは,訓練を PPO の場合で論じる。