Up 報酬 作成: 2026-05-13
更新: 2026-05-23


    歩行は,教えられない。
    歩行を獲得させる方法は,「試行錯誤させる」。

    試行錯誤が目的に到達するメカニズムは,
      試行錯誤での失敗・成功は,それぞれ痛い目・好い目にあうこと。
      痛い目を避け好い目を求めていれば,目的に到達する。


    「失敗・成功」は,行動の失敗・成功である。
    行動は,つぎのように定位される:
      身体が措かれている環境
      身体の状態
      その状態に対して起こす行動

    「痛い目・好い目」は,歩行訓練では人間がを設定してやる。
    これは,「痛い目・好い目」を 「報酬」 に定量化する。

    まとめて,つぎが 「試行錯誤」 の枠組になる:
    ・環境(Environment)
      ロボットが存在する世界
        床,重力,摩擦,障害物)
    ・状態(State)
      ロボットが今どうなっているか
        姿勢,関節角度,速度,床反力
    ・行動(Action)
      ロボットが次にどう動くか
        各モータに与えるトルク
    ・報酬(Reward)
      行動が良かったか悪かったかの数値
      例 :
      ・前に進む → +1
      ・転ぶ → -10
      ・エネルギー使いすぎ → -0.1


    そして,試行錯誤がつぎのループに表現される:
     状態を観測する
       例:ロボットが少し傾いている,前に進んでいる
     行動を選ぶ(Policy)
       例:右前脚を少し上げる,左後脚を押す
     状態が変化する
       例:ロボットが前に進む,あるいは転ぶ
     報酬が返ってくる
       例:前に進んだ → +1
         転んだ → -10
     報酬が高くなる行動を強化する