AlphaZero

モデルの訓練

作成: 2026-03-29
更新: 2026-03-31

モデルは２機── Policy と Value。
訓練用データセット
　つぎが要素の大量データ　
- 盤面　
- 手番 (つぎに手を指す方) 　
- 手番の指し手　
- 手番の勝敗
パラメータをランダムに初期化
訓練アルゴリズム (Policy, Value 共通の形)
　◦順伝播：
　◦逆伝播：
- パラメータ調節指標 p の値の意味が，入力データの通りなるように，パラメータを調節
- 損失関数
  　つぎの組み合わせ：
  　　方策の交差エントロピー損失
  　　価値の平均二乗誤差損失、
  　　L2正則化項
- 確率的勾配降下法
Policy と Value の訓練の違いは
- 訓練用データの入力形式
- ｢読む｣のアルゴリズム
- パラメータ調節指標 p の形
　○ Policy
- 訓練用データの入力形式
- パラメータ調節指標 p
  - p = (p(1), p(2), … , p(K)) : 実数ベクトル変数
    　　K : 合法手の総数
  - 逆伝播
　○ Value の場合
- 訓練用データの入力形式
- パラメータ調節指標 p
  - p : 実数変数
  - 逆伝播
訓練終了を以て，パラメータを固定
訓練済みモデルの入出力
　○ Policy
　○ Value
不思議
　訓練では：
　しかし，訓練済みのモデルは，
　どうしてこうなるかは，不明。
　訓練のアルゴリズムは，こういうことは教えていない。
　訓練の中でモデルが勝手に，こうなるように育つ。