４足歩行ロボット : ｢歩行訓練｣のロジック : 比較｢投球フォームづくり｣

比較 : ｢投球フォームづくり｣

作成: 2026-05-26
更新: 2026-05-27

備考 : Advantage A_i の立式
先ず，状態 s_i の評価 V( s_i ) を考える。
r_i は V( s_i ) の含蓄と考えられるので，
　　V( s_i ) = r_i ＋ V( s_{i+1} )

これに｢ゆらぎ｣を入れる：：
　　V( s_i ) = E[ r_i + γ V( s_{i+1} ) ]

ここで，E は，｢期待値｣の記号。
γは，0 ≦ γ < 1 で，｢匙加減」で決めることになる。
E とγの２通りで，｢ゆらぎ｣を入れるわけ。

V( s_i ) は，｢評点 r_i+k ( k = 0, ‥‥, n-1-i ) の減衰型累積｣になっている：
　V( s_i )
　　　= E[ r_i + γ V( s_{i+1} ) ]
　　　= E[ r_i + γ E[ r_{i+1} + γ V( s_{i+2} ) ] ]
　　　　‥‥‥‥
　　　= E[ Σ{ γ^k r_{i+k} | k = 0, ‥‥, n-1-i }
　　　　　　+ γ^{n-1} V( s_n ) ] ]

a_i は，評点 r_i が確定しているので，累積評価の期待値は，
　　r_i + γ V( s_{i+1} )
s_i で起こる行動の累積報酬の期待値は，
　　V( s_i )
よって，この２つの差
　　δ_i ＝ r_i + γ V( s_{i+1} ) ー V( s_i )
を a_i の Advantage と定めてはどうか？

しか Advantage は，状態がこの先どう遷移するかに依る。
そこで，つぎのように，｢δ_i+k の減衰型累積｣を A_i の定義にする：
　　A_i = Σ{ (γλ)^k δ_{i+k} | k = 0, ‥‥, n-1-i }