「４足歩行ロボット」探求 : 歩容 (gait) 生成

歩容 (gait) 生成

作成: 2026-05-13
更新: 2026-06-03

４足歩行ロボット＞歩容 (gait) 生成

1　ニューラルネット (NN)
　1.1　｢歩行訓練｣のキャスティング
　1.2　ニューラルネット (NN)
　1.3　｢歩行｣ワールド
　1.4　入力と出力 (状態と行動)
　1.5　NN 用コンピュータの要件

2　｢歩行訓練｣のロジック
　2.1　比較 : ｢投球フォームづくり｣
　2.2　｢歩行訓練｣のアルゴリズム
　2.3　｢歩行訓練｣は無理矢理をする
　2.4　学習方法＝試行錯誤
　2.5　NN の更新

3　試行錯誤
　3.1　教えられないことを教える
　3.2　報酬
　3.3　試行錯誤

4　シミュレーション (Sim)
　4.1　Sim-to-Real
　4.2　Sim 設計の２つの考え方
　4.3　ツール
　4.4　行動 (状態変化) の可視化
　4.5　並列学習　
　4.6　｢現実世界の揺らぎ｣を入れる

5　PPO
　5.1　訓練アルゴリズム
　5.2　Policy
　5.3　訓練のフロー
　5.4　状態の初期設定
　5.5　(s₀, a₀, r₀, s₁) の実際

　5.6　Policy の更新
　　5.6.1　アドバンテージの計算
　　5.6.2　期待報酬の最大化 (勾配法)

　5.7　試行錯誤の回数

6　報酬設計
　6.1　報酬設計とは
　6.2　報酬のカテゴリー
　6.3　報酬設定の難しさ
　6.4　報酬設定の黄金律

7　｢奇妙な動き｣
　7.1　｢奇妙な動き｣の意味
　7.2　学習理論への汎化
　7.3　進化理論への汎化

8　NN をロボットに実装
　8.1　NN 実装のロジック
　8.2　現実とのギャップ (Reality Gap)
　8.3　MCU の調整