Up
報酬設計とは
作成: 2026-05-13
更新: 2026-05-14
報酬は,ロボットに
「どんな行動が良いか(正)」
「どんな行動が悪いか(誤)」
を教えるのに,これを数値にしたもの。
この数値の設計が,報酬設計。
4足歩行ロボットでは,つぎのような 「目的」 を立てて,それぞれに報酬を設定する:
前に進む
転ばない
エネルギーを使いすぎない
滑らかに歩く
段差を越える
ロバストに動く(環境変化に強い)
そして,これらの報酬のそれぞれに重みをつけて,足し合わせたものを,最終的な報酬 とする。
重みは,人間の経験と試行錯誤がこれを調整。