Up 報酬設計の黄金律 作成: 2026-05-13
更新: 2026-05-13


    1. 報酬はできるだけシンプルに
    複雑にすると,ロボットが「変な抜け道」を見つけやすい。


    2. タスクの本質だけを報酬にする
    例:
    「歩く」タスクなら
      前進速度
      転倒ペナルティ
    だけでも十分なことが多い。


    3. 不要な報酬を入れない
    「自然な歩き方をさせたいから」といって
      足の高さ
      歩幅
      リズム
    などを細かく報酬に入れると,逆に学習が壊れる。


    4. 報酬は “誘導” ではなく “目的” を示す
    ロボットに「こう歩け」と細かく指示するのではなく,
    「こういう状態が良い」とだけ教える。
    するとロボットが自分で最適な歩き方を発見する。


    実際の例:MIT の Mini Cheetah の報酬
    MIT の4足ロボットでは,報酬は非常にシンプル:
      前進速度
      転倒ペナルティ
      エネルギー消費ペナルティ
    これだけで,驚くほど自然な走り方を学ぶ。