Up 比較 : 「投球フォームづくり」 作成: 2026-05-26
更新: 2026-05-27


    「歩行訓練」 ──身体制御レベルの歩行訓練──の説明を理解するのは難しい。
    なぜ難しいか?

    ひとは,「難しい」 をつぎのように考える:
      内容が複雑
      高度な概念が使われている

    しかし,「難しい」 には,つぎもある:
      合理的でないものを,
      合理的と受け取って,理解しようとする
    実際,「歩行訓練」 の説明の理解困難には,これがある。
    「歩行訓練」 は,実は無理矢理をやっている。


    一方,「歩行訓練」 のアルゴリズムは,訓練一般のアルゴリズムとしては,合理的なものである。
    このことを,「投手の投球フォームづくり」 で見ていく。


    先ず,投球の開始から終わりまでの動作に対し,節目を捉える。,
    そして,「行動」 の系列に表現する:
       a_1 → a_2 → ‥‥
    これは一方で,体の各部位の 「状態」 を a_i の前後で見ていることになる:
       s_i → a_i → s_{i+1}

    投手は,行動の系列を考えて投球しているわけではない。
    投球は,体の自動である。
    これを 「体の位相の発現」 と見る。
    そして,1回の投球に対し,そのときの体の位相θを考える:
      θ : s_0 → a_0 → s_1 → a_1 → ‥‥ → a_{n-1} → s_n


    体は不自由なもので,思う通りには動かない。
    θにおいて目的とするフォームを,「θにおける Policy」 と呼び,π(θ) で表す。

    この π(θ) に照らして,実際の投球フォームを評価する。
    即ち,各 a_i に対し,それがπ(θ) に合っているかいないかの評点 r_i をつける。


    しかし,外した a_i は,「結果的にはよかった」 になるかも知れない。
    そこで,これを考慮した a_i の評点を,「Advantage A_i 」 の言い回しで,考えることにする。
    そしてここが,頭の一番の使いどころになる。

    結論は:
      A_i = Σ{ (γλ)^k δ_{i+k} | k = 0, ‥‥ , n-1-i }   
      δ_i = r_i + γ V( s_{i+1} ) ー V( s_i )


    Advantage の導入で,1回の投球が,つぎのデータになる:
       θ; { A_i | i = 0, 1, ‥‥, n-1 }

    投球はその都度,今 (θ) のものと前 (θ_old}) のものを比較する。
    比較は:
      A_i (θ) とA_i (θ_old) の比較
        i = 0, 1, ‥‥, n-1

    そして,「フォームの修正」 がつぎのようになる:
      A_i (θ) > A_i (θ_old) のときは,
        s_i (θ_old) が s_i (θ) に変わる方向を強化する,
      A_i (θ) < A_i (θ_old) のときは,
        s_i (θ) が s_i (θ_old) に変わる方向を強化する,

    ここで更新することになるのは,θである。
    そして,更新したθで,つぎの投球試行に向かう。


    しかしこのとき,問題がある。
    そもそも,A_i 値は信用してかかるものではない。
    よって,強化はほどほどにして,つぎの投球試行に進む。

    この 「よいと思われる方向をほどほどに強化」 も,頭の使いどころ。
    先に,「Advantage A_i 」 を,頭の一番の使いどころと言った。
    そこで,この「ほどほどに強化」 は,2番目ということにしておく。


  • 備考 : Advantage A_i の立式
    先ず,状態 s_i の評価 V( s_i ) を考える。
    r_i は V( s_i ) の含蓄と考えられるので,
      V( s_i ) = r_i + V( s_{i+1} )

    これに 「ゆらぎ」 を入れる::
      V( s_i ) = E[ r_i + γ V( s_{i+1} ) ]

    ここで,E は,「期待値」 の記号。
    γは,0 ≦ γ < 1 で,「匙加減」で決めることになる。
    E とγの2通りで, 「ゆらぎ」を入れるわけ。

    V( s_i ) は,「評点 r_i+k ( k = 0, ‥‥, n-1-i ) の減衰型累積」 になっている:
     V( s_i )
       = E[ r_i + γ V( s_{i+1} ) ]
       = E[ r_i + γ E[ r_{i+1} + γ V( s_{i+2} ) ] ]
        ‥‥‥‥
       = E[ Σ{ γ^k r_{i+k} | k = 0, ‥‥, n-1-i }
          + γ^{n-1} V( s_n ) ] ]

    a_i は,評点 r_i が確定しているので,累積評価の期待値は,
      r_i + γ V( s_{i+1} )
    s_i で起こる行動の累積報酬の期待値は,
      V( s_i )
    よって,この2つの差
      δ_i = r_i + γ V( s_{i+1} ) ー V( s_i )
    を a_i の Advantage と定めてはどうか?

    しか Advantage は,状態がこの先どう遷移するかに依る。
    そこで,つぎのように,「δ_i+k の減衰型累積」 を A_i の定義にする:
      A_i = Σ{ (γλ)^k δ_{i+k} | k = 0, ‥‥, n-1-i }