| Up | 比較 : 「投球フォームづくり」 | 作成: 2026-05-26 更新: 2026-05-27 |
なぜ難しいか? ひとは,「難しい」 をつぎのように考える: 内容が複雑 高度な概念が使われている しかし,「難しい」 には,つぎもある: 合理的でないものを, 合理的と受け取って,理解しようとする 「歩行訓練」 は,実は無理矢理をやっている。 一方,「歩行訓練」 のアルゴリズムは,訓練一般のアルゴリズムとしては,合理的なものである。 このことを,「投手の投球フォームづくり」 で見ていく。 先ず,投球の開始から終わりまでの動作に対し,節目を捉える。, そして,「行動」 の系列に表現する: a_1 → a_2 → ‥‥ これは一方で,体の各部位の 「状態」 を a_i の前後で見ていることになる: s_i → a_i → s_{i+1} 投手は,行動の系列を考えて投球しているわけではない。 投球は,体の自動である。 これを 「体の位相の発現」 と見る。 そして,1回の投球に対し,そのときの体の位相θを考える: θ : s_0 → a_0 → s_1 → a_1 → ‥‥ → a_{n-1} → s_n 体は不自由なもので,思う通りには動かない。 θにおいて目的とするフォームを,「θにおける Policy」 と呼び,π(θ) で表す。 この π(θ) に照らして,実際の投球フォームを評価する。 即ち,各 a_i に対し,それがπ(θ) に合っているかいないかの評点 r_i をつける。 しかし,外した a_i は,「結果的にはよかった」 になるかも知れない。 そこで,これを考慮した a_i の評点を,「Advantage A_i 」 の言い回しで,考えることにする。 そしてここが,頭の一番の使いどころになる。 結論は: A_i = Σ{ (γλ)^k δ_{i+k} | k = 0, ‥‥ , n-1-i } δ_i = r_i + γ V( s_{i+1} ) ー V( s_i ) Advantage の導入で,1回の投球が,つぎのデータになる: θ; { A_i | i = 0, 1, ‥‥, n-1 } 投球はその都度,今 (θ) のものと前 (θ_old}) のものを比較する。 比較は: A_i (θ) とA_i (θ_old) の比較 i = 0, 1, ‥‥, n-1 そして,「フォームの修正」 がつぎのようになる: s_i (θ_old) が s_i (θ) に変わる方向を強化する, A_i (θ) < A_i (θ_old) のときは, s_i (θ) が s_i (θ_old) に変わる方向を強化する, ここで更新することになるのは,θである。 そして,更新したθで,つぎの投球試行に向かう。 しかしこのとき,問題がある。 そもそも,A_i 値は信用してかかるものではない。 よって,強化はほどほどにして,つぎの投球試行に進む。 この 「よいと思われる方向をほどほどに強化」 も,頭の使いどころ。 先に,「Advantage A_i 」 を,頭の一番の使いどころと言った。 そこで,この「ほどほどに強化」 は,2番目ということにしておく。
|