| Up | 学習方法=試行錯誤 | 作成: 2026-05-24 更新: 2026-05-24 |
試行錯誤を方法にして,自分で学習してもらう他ない。 このとき人間は,つぎのことをする: 行動の良し悪しを,「報酬」 の形で教える π_θ は, 身体の 「状態 s_t」 を受けて, 身体に 「行動 a_t」 を命令する (tは,離散に順序づけられた時刻を表す) 身体は,行動 a_t を開始し,時間 ⊿t (通常, 1/60 秒に設定) 後に状態 s_t+1 になる。 行動 a_t ( 状態の遷移 s_t → s_t+1 ) に対し,報酬 r_t を計算する。 パラメータθはそのままにして,このループを走らす。 そして, s_0 → a_0 → r_0 → s_1 → a_1 → r_1 →_ ‥‥‥‥ をデータにとる。 つぎにこのデータを使って,θを更新する。 θの更新が,「歩行能力の向上」 を意味する。 「試行」 は,s_t → a_t に表現される。, 「錯誤」 は,r_t に表現される。 s_t → a_t に 「試行」 の意味を与えるのは,つぎのロジック: そして,表記 π_θ( a | s ), π_θ( s ) = a が,つぎのように導入される: ただし 「行動 a」 は,可能性として無限に有る。 π_θ( a | s ) は,≈ 0 になる。 実際,π_θ に対する 「確率分布」 の見方は,ヒストグラムのグラフのように考えるものである。 ──「匙加減」 は,ゆらぎの幅が肝心 |