Up Policy・Value・MCTS 連携,出力 作成: 2026-03-29
更新: 2026-03-31


    考え方:
      有望な手だけを重点的に読む
      読むほど精度が上がる
      読まない手は永遠に読まない

    方法:
     1. 局面を評価 (モデルの直観)
     2. その評価を使って探索を進め (MCTS)
     3. 探索で現れる局面に対し,1, 2 を行う
     4. この再帰的処理で,探索を剪定

    即ち,
      Policy, Value → 直観
      MCTS → 探索
      直観が探索を導き
      探索が直観を補強する


  • モデル (Policy, Value) と MCTS の連携
      モデルと MCTS の間で,<直観→深掘り>ループを繰り返す
      (「有望手の順位」と「最終的な勝敗結果」を更新)

  • 訓練済みモデルの入出力
    • Policy
        入力:[盤面,手番]  
        出力:手番の有望手の順位 (確率分布の形で表現)
    • Value
        入力:[盤面,手番]  
        出力:手番の勝敗 (−1と1 の間の実数で表現)

  • MCTS
    • UCB (Upper Confidence Bound) アルゴリズム
    • 探索の各ノードに対し,訪問回数と累積価値を記録
      これらの統計情報と,モデル Policy, Value の評価を組み合わせて、次に探索する枝を選ぶ

  • AI としての出力
    • 手番の一手 (有望手)
      • 手番の有望手の順位 (確率分布表示)
      • 勝つのはどちらか (確率表示)