Up
報酬設定の難しさ
作成: 2026-05-13
更新: 2026-05-13
1. 報酬ハッキング(Reward Hacking)
ロボットは「報酬を最大化するための変な行動」を見つける。
前に進む報酬だけを与えると,
→ “倒れながら滑って進む” という解を見つける
エネルギー節約を重視すると,
→ ほとんど動かなくなる
2. 報酬のバランスが難しい
安定性を重視しすぎると → 動きが硬くなる
速度を重視しすぎると → 転びやすくなる
エネルギー節約を重視しすぎると → 歩かなくなる
3. 環境依存性
平地ではうまく歩けるが,
砂地・段差・氷では歩けない
→ 解決は,Sim-to-Real や ドメインランダム化で