Up NN の更新 作成: 2026-05-24
更新: 2026-05-24


    「試行錯誤」 は,NN のパラメター値θを同じままにして,s_t → a_t → r_t をループするというものである:
        s_0 → a_0 → r_0
      → s_1 → a_1 → r_1 _
      → ‥‥‥‥

    そしてこれのつぎの段が,θの更新である。


    θの更新は,PPO と呼ばれるプログラムを使うことが多い。
    このプログラムは,NN の外にある (NN のアルゴリズムではない)。


    PPO は,s_0 → a_0 → r_0 → s_1 → ‥‥ をデータにとっている。
    そして,つぎのルールで,θを更新する:
      行動 a_t が良かったら,
        確率 π_θ( a_t | s_t ) を,少し上げる
      行動 a_t が悪かったら,
        確率 π_θ( a_t | s_t ) を,少し下げる


    行動 a_t の良さ加減は,つぎの差で決める:
      ( a_t の実際の報酬 )
       ー ( 状態 s_t から起こる行動の報酬の期待値)

    計算は:
      a_t の実際の報酬
        = \( r_t +γV(s_{t+1}) \)
      状態 s_t から起こる行動の報酬の期待値
        = \( V(s_t) \)
      \( V(s) \) : 状態 s から起こる行動の報酬の期待値
      \( γ \) : 未来の報酬に掛ける重み (割引率)

    この式は,「強化学習」 の表現式 (ベルマン方程式) \[ V( s_t ) = \mathbb{E} [\ r_t +\ \gamma\ V( s_{t+1} )\ ] \] をなぞっただけ。