- モデルは2機── Policy と Value。
- 訓練用データセット
つぎが要素の大量データ
- 盤面
- 手番 (つぎに手を指す方)
- 手番の指し手
- 手番の勝敗
- パラメータをランダムに初期化
- 訓練アルゴリズム (Policy, Value 共通の形)
◦順伝播:
◦逆伝播:
- パラメータ調節指標 p の値の意味が,入力データの通りなるように,パラメータを調節
- 損失関数
つぎの組み合わせ:
方策の交差エントロピー損失
価値の平均二乗誤差損失、
L2正則化項
- 確率的勾配降下法
- Policy と Value の訓練の違いは
- 訓練用データの入力形式
- 「読む」 のアルゴリズム
- パラメータ調節指標 p の形
○ Policy
- 訓練用データの入力形式
- パラメータ調節指標 p
- p = (p(1), p(2), … , p(K)) : 実数ベクトル変数
K : 合法手の総数
- 逆伝播
<手番の指し手>の ID が k のとき,p が p(k) ≈ 1 の one-hot になるように,パラメータを調節
○ Value の場合
- 訓練用データの入力形式
- パラメータ調節指標 p
- p : 実数変数
- 逆伝播
手番の
負け / 引き分け / 勝ち
に対し,p の値が
−1 / 0 / 1
となるように,パラメータを調節
- 訓練終了を以て,パラメータを固定
- 訓練済みモデルの入出力
○ Policy
入力:[盤面,手番]
出力 (= p の値):
手番の有望手の順位を,確率分布の形で表現
○ Value
入力:[盤面,手番]
出力 (= p の値):
手番の勝敗を,−1と1 の間の実数で表現
読み方:負け (−1), 引き分け (0), 勝ち (1)
- 不思議
訓練では:
Policy の指標 p は,one-hot のベクトルになるようにパラメータが調節される。
Value の指標 p は,−1, 0, 1 のいずれかになるようにパラメータが調節される。
しかし,訓練済みのモデルは,
Policy の指標 p は,手番の有望手の順位を,確率分布の形で表すものになる。
Value の指標 p は,手番が勝ちになる可能性を,区間 [−1, 1] の実数で表すものになる。
ともに,p の値が離散から連続になり,かつ実用のものになる。
どうしてこうなるかは,不明。
訓練のアルゴリズムは,こういうことは教えていない。
訓練の中でモデルが勝手に,こうなるように育つ。
|