Up Policy 作成: 2026-05-17
更新: 2026-05-22


    歩行訓練の中身は,ニューラルネットのパラメータ値の更新である。

    ニューラルネットが
       「パラメータ値がθ」
    であることを,π_θ と表し,このように表されたニューラルネットを,Policy と呼ぶ。


    ニューラルネットは,状態s(ベクトル) の入力に対し,つぎの2つのことをする:
      行動の 「確率分布」 をつくる
      行動を1つサンプリングし,これを出力する

    その2つの処理に応じて,π_θ につぎの2つの用法を与える:
      π( a | s ) : 状態 s に対する行動 a の確率  
      π( s ) = a : 状態 s の入力で,行動 a が出力された  

     喩え:Policy πθ は「サイコロを振る機械」
       πθ(a|s)
         → その目が出る確率(確率密度)
       πθ(s) = a
         → サイコロを振って出た目(行動)
          ( πθ(a|s) の大きい a が出やすい)


    π( a | s ), π( s ) それぞれの使われる場面:
      ロボットを動かすとき → サンプルが必要
        → π( s )
      学習するとき → 確率が必要
        → π( a | s )


    ここで,「状態・行動」 の意味は:
    状態 s:
      「いまロボットがどうなっているか」
      関節角度・角速度
      本体の姿勢(ロール・ピッチ・ヨー)
      重心の高さ
      接地状態(どの足が地面についているか)

    行動 a:
      「次にどう力を入れるか」
      各関節へのトルク
      あるいは目標関節角度

    (s₀, a₀, r₀, s₁) の実際