「歩行」 と 「タスク」 は,異なる階層の機能/能力である。
そこで,それぞれにモデルを割り当てることになる:
歩行モデル : 「どう歩くか」
タスクモデル : 「何をするか」
そしてこの2つのモデルの関係は,「AI オーケストレーション」。
- 歩行モデル (Locomotion Policy)
- 歩行ポリシー(Locomotion Policy)を学習
PPO などで「安定歩行」を学習
入力:身体状態
出力:関節トルク
- スキルを追加(Skill Policies)
2 は,「カリキュラム学習」 の形に構成される。
- タスクモデル (High-level Policyy)
- タスクレベルの意思決定(High-level Policy)
ここでは LLM を使う研究も増えている。
|