AlphaZero

Policy・Value・MCTS 連携，出力

作成: 2026-03-29
更新: 2026-03-31

モデル (Policy, Value) と MCTS の連携
訓練済みモデルの入出力
- Policy
- Value
MCTS
- UCB (Upper Confidence Bound) アルゴリズム
- 探索の各ノードに対し，訪問回数と累積価値を記録
  これらの統計情報と，モデル Policy, Value の評価を組み合わせて、次に探索する枝を選ぶ
AI としての出力
- 手番の一手 (有望手)
  - 手番の有望手の順位 (確率分布表示)
  - 勝つのはどちらか (確率表示)