Up 試行錯誤の回数 作成: 2026-06-03
更新: 2026-06-04

4足歩行ロボット歩容 (gait) 生成PPO試行錯誤の回数

    訓練の内容は,試行錯誤の繰り返し。
    1試行錯誤は,Policy π_θ と対応する。
    試行錯誤の繰り返しは,θ (NN のパラメータ値) 更新の繰り返し。

    この回数は,どのくらいか?
    ものすごい数になると説かれる。
    しかしその数が,千万とか億の大きさで説かれると,さすがにそれは話の盛りす過ぎのように思えてくる。
    そこで,試行錯誤の数はどのくらいが限度かを,ここで考えてみる。


    試行錯誤の回数は,訓練時間に制約される:
      試行回数 = 訓練時間 ÷ 1試行にかける時間

    ここで,「1試行にかける時間」 は,一定である:  
    1. 1試行は,1/60 秒の長さのコマに分けられる
    2. 1試行のコマ数は,Policy 更新のときの 「更新方向の計算 (勾配計算)」 を式計算にする必要から,固定される

    1試行のコマ数と時間を,それぞれ簡単に 「試行コマ数」 「試行時間」 と呼ぶことにする:
      試行時間 (秒) = 1/60 × 試行コマ数


    シミュレーションツールには,試行をリアルタイムに可視化する機能が付いている。
    この絵図を鑑みて,試行時間を6秒としよう:
      試行時間 = 6秒
      試行コマ数 = 60 (コマ/秒) × 6 (秒) = 360

    訓練時間として,日,週,月,年を考える。

    秒にすると:
      日 :60 × 60 × 24 = 24 × 3600
      週 :60 × 60 × 24 × 7 = 168 × 3600
      月 :60 × 60 × 24 × 30 = 720 × 3600
      年 :60 × 60 × 24 × 365 = 8760 × 3600

    よって,「試行時間 = 6秒」 のときの試行回数は,上の数の ÷6 ということで:
      日 :24 × 600 = 14400
      週 :168 × 600 = 100800
      月 :720 × 600 = 432000
      年 :8760 × 600 = 5256000

    桁数は,「年」 でも百万どまり。

    1週間の訓練で結果を見たいとすれば,試行錯誤は十万回。
    試行時間を半分の3秒にしても,20万回。


    というわけで,「試行錯誤の回数」 として考えられる数は,十万の桁がいいところ。
    それ以上の桁の数が言われるときは,「おおげさ」 と見ることになる。

    また,試行コマ数も,試行回数とトレードオフの関係にあるから,百桁どまりと見ることになる。