| Up | 歩容 (gait) 生成 | 作成: 2026-05-13 更新: 2026-06-03 |
| 4足歩行ロボット> 歩容 (gait) 生成 |
|
1 ニューラルネット (NN)
1.1 「歩行訓練」 のキャスティング 1.2 ニューラルネット (NN) 1.3 「歩行」 ワールド 1.4 入力と出力 (状態と行動) 1.5 NN 用コンピュータの要件 2.1 比較 : 「投球フォームづくり」 2.2 「歩行訓練」 のアルゴリズム 2.3 「歩行訓練」 は無理矢理をする 2.4 学習方法=試行錯誤 2.5 NN の更新 3.1 教えられないことを教える 3.2 報酬 3.3 試行錯誤 4.1 Sim-to-Real 4.2 Sim 設計の2つの考え方 4.3 ツール 4.4 行動 (状態変化) の可視化 4.5 並列学習 4.6 「現実世界の揺らぎ」 を入れる 5.1 訓練アルゴリズム 5.2 Policy 5.3 訓練のフロー 5.4 状態の初期設定 5.5 (s₀, a₀, r₀, s₁) の実際 5.6.1 アドバンテージの計算 5.6.2 期待報酬の最大化 (勾配法) 6.1 報酬設計とは 6.2 報酬のカテゴリー 6.3 報酬設定の難しさ 6.4 報酬設定の黄金律 7.1 「奇妙な動き」 の意味 7.2 学習理論への汎化 7.3 進化理論への汎化 8.1 NN 実装のロジック 8.2 現実とのギャップ (Reality Gap) 8.3 MCU の調整 |