Up 歩容 (gait) 生成 作成: 2026-05-13
更新: 2026-06-03

4足歩行ロボット> 歩容 (gait) 生成

1 ニューラルネット (NN)
 1.1 「歩行訓練」 のキャスティング
 1.2 ニューラルネット (NN)
 1.3 「歩行」 ワールド
 1.4 入力と出力 (状態と行動)
 1.5 NN 用コンピュータの要件
2 「歩行訓練」 のロジック
 2.1 比較 : 「投球フォームづくり」
 2.2 「歩行訓練」 のアルゴリズム
 2.3 「歩行訓練」 は無理矢理をする
 2.4 学習方法=試行錯誤
 2.5 NN の更新
3 試行錯誤
 3.1 教えられないことを教える
 3.2 報酬
 3.3 試行錯誤
4 シミュレーション (Sim)
 4.1 Sim-to-Real
 4.2 Sim 設計の2つの考え方
 4.3 ツール
 4.4 行動 (状態変化) の可視化
 4.5 並列学習  
 4.6 「現実世界の揺らぎ」 を入れる
5 PPO
 5.1 訓練アルゴリズム
 5.2 Policy
 5.3 訓練のフロー
 5.4 状態の初期設定
 5.5 (s₀, a₀, r₀, s₁) の実際
 5.6 Policy の更新
  5.6.1 アドバンテージの計算
  5.6.2 期待報酬の最大化 (勾配法)
 5.7 試行錯誤の回数
6 報酬設計
 6.1 報酬設計とは
 6.2 報酬のカテゴリー
 6.3 報酬設定の難しさ
 6.4 報酬設定の黄金律
7 「奇妙な動き」
 7.1 「奇妙な動き」 の意味
 7.2 学習理論への汎化
 7.3 進化理論への汎化
8 NN をロボットに実装
 8.1 NN 実装のロジック
 8.2 現実とのギャップ (Reality Gap)
 8.3 MCU の調整