| Up | 「歩行訓練」 のアルゴリズム | 作成: 2026-05-26 更新: 2026-05-27 |
「歩行訓練」 は, 「NN のパラメータ値の更新を繰り返して, 歩行を獲得していく」 である。 「歩行訓練」 のアルゴリズムは,1箇所を除いて, 「投球フォームづくり」 で示したアルゴリズムと同じである。 その1箇所は: 行動の区切り方 「投球のフォームづくり」 の場合,動きの節目を捉え,行動をそこで区切った。 これに対し 「歩行訓練」 は,「動きの節目を考えない」からのスタートである。 即ち,行動を機械的に時間で区切る。 例えば 1/60 秒間隔)。 区切りが時間間隔だということを示すために,行動 a, 状態 s, アドバンテージ A のサフィックスは t を用いる: a_t, s_t, A_t 区切りが「行動の節目」ではなく「時間」なので,θとθ_old の間の A_t 比較は,本当なら,意味がつかないことになる。 しかし,π(θ) とπ(θ_old) の行動系列が近づくようになっていくと,A_t 比較は意味があるようになる。 実際 「歩行訓練」 は,このようになっていき,最後には歩行に到達する。 ──何百万回の試行錯誤を以て。 なお,「歩行訓練」 では,θ更新の「ほどほど」「方向の強化」 が,それぞれ「クリッピング付き目的関数」 「目的関数最大化の勾配法」 のことばで出て来る。 |