| Up | 報酬 | 作成: 2026-05-13 更新: 2026-05-23 |
歩行を獲得させる方法は,「試行錯誤させる」。 試行錯誤が目的に到達するメカニズムは,
痛い目を避け好い目を求めていれば,目的に到達する。 「失敗・成功」は,行動の失敗・成功である。 行動は,つぎのように定位される: 身体の状態 その状態に対して起こす行動 「痛い目・好い目」は,歩行訓練では人間がを設定してやる。 これは,「痛い目・好い目」を 「報酬」 に定量化する。 まとめて,つぎが 「試行錯誤」 の枠組になる: 床,重力,摩擦,障害物) 姿勢,関節角度,速度,床反力 各モータに与えるトルク
・転ぶ → -10 ・エネルギー使いすぎ → -0.1 そして,試行錯誤がつぎのループに表現される: 例:ロボットが少し傾いている,前に進んでいる 例:右前脚を少し上げる,左後脚を押す 例:ロボットが前に進む,あるいは転ぶ 例:前に進んだ → +1 転んだ → -10 |