| Up | NN の更新 | 作成: 2026-05-24 更新: 2026-05-24 |
→ s_1 → a_1 → r_1 _ → ‥‥‥‥ そしてこれのつぎの段が,θの更新である。 θの更新は,PPO と呼ばれるプログラムを使うことが多い。 このプログラムは,NN の外にある (NN のアルゴリズムではない)。 PPO は,s_0 → a_0 → r_0 → s_1 → ‥‥ をデータにとっている。 そして,つぎのルールで,θを更新する: 確率 π_θ( a_t | s_t ) を,少し上げる 確率 π_θ( a_t | s_t ) を,少し下げる 行動 a_t の良さ加減は,つぎの差で決める: ー ( 状態 s_t から起こる行動の報酬の期待値) 計算は: a_t の実際の報酬 = \( r_t +γV(s_{t+1}) \) = \( V(s_t) \) \( γ \) : 未来の報酬に掛ける重み (割引率) この式は,「強化学習」 の表現式 (ベルマン方程式) \[ V( s_t ) = \mathbb{E} [\ r_t +\ \gamma\ V( s_{t+1} )\ ] \] をなぞっただけ。 |