| Up | 試行錯誤の回数 | 作成: 2026-06-03 更新: 2026-06-04 |
| 4足歩行ロボット > 歩容 (gait) 生成 > PPO > 試行錯誤の回数 |
1試行錯誤は,Policy π_θ と対応する。 試行錯誤の繰り返しは,θ (NN のパラメータ値) 更新の繰り返し。 この回数は,どのくらいか? ものすごい数になると説かれる。 しかしその数が,千万とか億の大きさで説かれると,さすがにそれは話の盛りす過ぎのように思えてくる。 そこで,試行錯誤の数はどのくらいが限度かを,ここで考えてみる。 試行錯誤の回数は,訓練時間に制約される: ここで,「1試行にかける時間」 は,一定である: 1試行のコマ数と時間を,それぞれ簡単に 「試行コマ数」 「試行時間」 と呼ぶことにする: シミュレーションツールには,試行をリアルタイムに可視化する機能が付いている。 この絵図を鑑みて,試行時間を6秒としよう: 試行コマ数 = 60 (コマ/秒) × 6 (秒) = 360 訓練時間として,日,週,月,年を考える。 秒にすると: 週 :60 × 60 × 24 × 7 = 168 × 3600 月 :60 × 60 × 24 × 30 = 720 × 3600 年 :60 × 60 × 24 × 365 = 8760 × 3600 よって,「試行時間 = 6秒」 のときの試行回数は,上の数の ÷6 ということで: 週 :168 × 600 = 100800 月 :720 × 600 = 432000 年 :8760 × 600 = 5256000 桁数は,「年」 でも百万どまり。 1週間の訓練で結果を見たいとすれば,試行錯誤は十万回。 試行時間を半分の3秒にしても,20万回。 というわけで,「試行錯誤の回数」 として考えられる数は,十万の桁がいいところ。 それ以上の桁の数が言われるときは,「おおげさ」 と見ることになる。 また,試行コマ数も,試行回数とトレードオフの関係にあるから,百桁どまりと見ることになる。 |