考え方:
有望な手だけを重点的に読む
読むほど精度が上がる
読まない手は永遠に読まない
方法:
1. 局面を評価 (モデルの直観)
2. その評価を使って探索を進め (MCTS)
3. 探索で現れる局面に対し,1, 2 を行う
4. この再帰的処理で,探索を剪定
即ち,
Policy, Value → 直観
MCTS → 探索
直観が探索を導き
探索が直観を補強する
- モデル (Policy, Value) と MCTS の連携
モデルと MCTS の間で,<直観→深掘り>ループを繰り返す
(「有望手の順位」と「最終的な勝敗結果」を更新)
- 訓練済みモデルの入出力
- Policy
入力:[盤面,手番]
出力:手番の有望手の順位 (確率分布の形で表現)
- Value
入力:[盤面,手番]
出力:手番の勝敗 (−1と1 の間の実数で表現)
- MCTS
- UCB (Upper Confidence Bound) アルゴリズム
- 探索の各ノードに対し,訪問回数と累積価値を記録
これらの統計情報と,モデル Policy, Value の評価を組み合わせて、次に探索する枝を選ぶ
- AI としての出力
- 手番の一手 (有望手)
- 手番の有望手の順位 (確率分布表示)
- 勝つのはどちらか (確率表示)
|