４足歩行ロボット : 歩行の獲得 : ｢歩行訓練｣理解のツボ

学習方法＝試行錯誤

作成: 2026-05-24
更新: 2026-05-24

π_θ は，｢状態 s で起こる行動の確率分布｣と見なせる
s_t → a_t の a_t は，サンプル
即ち，行動の確率分布 π_θ を以て行動をサンプリングした結果が a_t
（サイコロ π_θ を振って出た目が a_t ）