| Up | Policy | 作成: 2026-05-17 更新: 2026-05-22 |
ニューラルネットが 「パラメータ値がθ」 であることを,π_θ と表し,このように表されたニューラルネットを,Policy と呼ぶ。 ニューラルネットは,状態s(ベクトル) の入力に対し,つぎの2つのことをする: 行動を1つサンプリングし,これを出力する その2つの処理に応じて,π_θ につぎの2つの用法を与える: π( s ) = a : 状態 s の入力で,行動 a が出力された 喩え:Policy πθ は「サイコロを振る機械」 → その目が出る確率(確率密度) πθ(s) = a → サイコロを振って出た目(行動) ( πθ(a|s) の大きい a が出やすい) π( a | s ), π( s ) それぞれの使われる場面: → π( s ) 学習するとき → 確率が必要 → π( a | s ) ここで,「状態・行動」 の意味は: 「いまロボットがどうなっているか」
本体の姿勢(ロール・ピッチ・ヨー) 重心の高さ 接地状態(どの足が地面についているか) 行動 a: 「次にどう力を入れるか」
あるいは目標関節角度 (s₀, a₀, r₀, s₁) の実際
|