| Up | 報酬設計の黄金律 | 作成: 2026-05-13 更新: 2026-05-13 |
2. タスクの本質だけを報酬にする 「歩く」タスクなら 前進速度 転倒ペナルティ だけでも十分なことが多い。 3. 不要な報酬を入れない 足の高さ 歩幅 リズム などを細かく報酬に入れると,逆に学習が壊れる。 4. 報酬は “誘導” ではなく “目的” を示す 「こういう状態が良い」とだけ教える。 するとロボットが自分で最適な歩き方を発見する。 実際の例:MIT の Mini Cheetah の報酬 転倒ペナルティ エネルギー消費ペナルティ |