Up 学習方法=試行錯誤 作成: 2026-05-24
更新: 2026-05-24


    歩行の仕方は,教えられない。
    試行錯誤を方法にして,自分で学習してもらう他ない。

    このとき人間は,つぎのことをする:
      試行錯誤の環境をつくる
      行動の良し悪しを,「報酬」 の形で教える


    π_θ は,
      身体の 「状態 s_t」 を受けて,
      身体に 「行動 a_t」 を命令する
      (tは,離散に順序づけられた時刻を表す)

    身体は,行動 a_t を開始し,時間 ⊿t (通常, 1/60 秒に設定) 後に状態 s_t+1 になる。
    行動 a_t ( 状態の遷移 s_t → s_t+1 ) に対し,報酬 r_t を計算する。

    パラメータθはそのままにして,このループを走らす。
    そして,
      s_0 → a_0 → r_0 →
      s_1 → a_1 → r_1 →_
       ‥‥‥‥
    をデータにとる。

    つぎにこのデータを使って,θを更新する。
    θの更新が,「歩行能力の向上」 を意味する。


    「試行」 は,s_t → a_t に表現される。,
    「錯誤」 は,r_t に表現される。

    s_t → a_t に 「試行」 の意味を与えるのは,つぎのロジック:
    • π_θ は,「状態 s で起こる行動の確率分布」 と見なせる
    • s_t → a_t の a_t は,サンプル
      即ち,行動の確率分布 π_θ を以て行動をサンプリングした結果が a_t
      (サイコロ π_θ を振って出た目が a_t )


    そして,表記 π_θ( a | s ), π_θ( s ) = a が,つぎのように導入される:
    • π_θ( a | s ) :
        状態 s で行動 a が起こる確率
    • θ( s ) = a :
        状態 s で行動をサンプリングした結果が a


    ただし 「行動 a」 は,可能性として無限に有る。
    π_θ( a | s ) は,≈ 0 になる。

    実際,π_θ に対する 「確率分布」 の見方は,ヒストグラムのグラフのように考えるものである。
    ──「匙加減」 は,ゆらぎの幅が肝心