Up 報酬設定の難しさ 作成: 2026-05-13
更新: 2026-05-13


    1. 報酬ハッキング(Reward Hacking)
    ロボットは「報酬を最大化するための変な行動」を見つける。

      前に進む報酬だけを与えると,
       → “倒れながら滑って進む” という解を見つける
      エネルギー節約を重視すると,
       → ほとんど動かなくなる


    2. 報酬のバランスが難しい
      安定性を重視しすぎると → 動きが硬くなる
      速度を重視しすぎると → 転びやすくなる
      エネルギー節約を重視しすぎると → 歩かなくなる


    3. 環境依存性
      平地ではうまく歩けるが,
      砂地・段差・氷では歩けない
     → 解決は,Sim-to-Real や ドメインランダム化で