Up 報酬設計とは 作成: 2026-05-13
更新: 2026-05-14


    報酬は,ロボットに
      「どんな行動が良いか(正)」
      「どんな行動が悪いか(誤)」
    を教えるのに,これを数値にしたもの。
    この数値の設計が,報酬設計。

    4足歩行ロボットでは,つぎのような 「目的」 を立てて,それぞれに報酬を設定する:
      前に進む
      転ばない
      エネルギーを使いすぎない
      滑らかに歩く
      段差を越える
      ロバストに動く(環境変化に強い)

    そして,これらの報酬のそれぞれに重みをつけて,足し合わせたものを,最終的な報酬 とする。
    重みは,人間の経験と試行錯誤がこれを調整。