Up 「歩行訓練」 のアルゴリズム 作成: 2026-05-26
更新: 2026-05-27


    「歩行訓練」 は,ニューラルネット (NN) のパラメータ値が,θになる。
    「歩行訓練」 は,
      「NN のパラメータ値の更新を繰り返して,
       歩行を獲得していく」
    である。


    「歩行訓練」 のアルゴリズムは,1箇所を除いて, 「投球フォームづくり」 で示したアルゴリズムと同じである。
    その1箇所は:
       行動の区切り方

    「投球のフォームづくり」 の場合,動きの節目を捉え,行動をそこで区切った。
    これに対し 「歩行訓練」 は,「動きの節目を考えない」からのスタートである。
    即ち,行動を機械的に時間で区切る。
    例えば 1/60 秒間隔)。

    区切りが時間間隔だということを示すために,行動 a, 状態 s, アドバンテージ A のサフィックスは t を用いる:
       a_t, s_t, A_t


    区切りが「行動の節目」ではなく「時間」なので,θとθ_old の間の A_t 比較は,本当なら,意味がつかないことになる。
    しかし,π(θ) とπ(θ_old) の行動系列が近づくようになっていくと,A_t 比較は意味があるようになる。
    実際 「歩行訓練」 は,このようになっていき,最後には歩行に到達する。
    ──何百万回の試行錯誤を以て。

    なお,「歩行訓練」 では,θ更新の「ほどほど」「方向の強化」 が,それぞれ「クリッピング付き目的関数」 「目的関数最大化の勾配法」 のことばで出て来る。