Up モデルの訓練 作成: 2026-03-29
更新: 2026-03-31


  • モデルは2機── Policy と Value。

  • 訓練用データセット
     つぎが要素の大量データ  
       
    • 盤面  
    • 手番 (つぎに手を指す方)  
    • 手番の指し手  
    • 手番の勝敗

  • パラメータをランダムに初期化


  • 訓練アルゴリズム (Policy, Value 共通の形)
     ◦順伝播:
      盤面を読ませる (ただなぞらせる)
     ◦逆伝播:
    • パラメータ調節指標 p の値の意味が,入力データの通りなるように,パラメータを調節
    • 損失関数
       つぎの組み合わせ:
        方策の交差エントロピー損失
        価値の平均二乗誤差損失、
        L2正則化項
    • 確率的勾配降下法


  • Policy と Value の訓練の違いは
    • 訓練用データの入力形式
    • 「読む」 のアルゴリズム
    • パラメータ調節指標 p の形

     ○ Policy
    • 訓練用データの入力形式
        [盤面,手番,手番の指し手] の組
    • パラメータ調節指標 p
      • p = (p(1), p(2), … , p(K)) : 実数ベクトル変数
          K : 合法手の総数
      • 逆伝播
          <手番の指し手>の ID が k のとき,p が p(k) ≈ 1 の one-hot になるように,パラメータを調節

     ○ Value の場合
    • 訓練用データの入力形式
        [盤面,手番,手番の勝敗] の組
    • パラメータ調節指標 p
      • p : 実数変数
      • 逆伝播
          手番の
             負け / 引き分け / 勝ち
          に対し,p の値が
             −1 / 0 / 1
          となるように,パラメータを調節


  • 訓練終了を以て,パラメータを固定


  • 訓練済みモデルの入出力
     ○ Policy
      入力:[盤面,手番]
      出力 (= p の値):
        手番の有望手の順位を,確率分布の形で表現
     ○ Value
      入力:[盤面,手番]
      出力 (= p の値):
        手番の勝敗を,−1と1 の間の実数で表現
         読み方:負け (−1), 引き分け (0), 勝ち (1)


  • 不思議
     訓練では:
      Policy の指標 p は,one-hot のベクトルになるようにパラメータが調節される。
      Value の指標 p は,−1, 0, 1 のいずれかになるようにパラメータが調節される。
     しかし,訓練済みのモデルは,
      Policy の指標 p は,手番の有望手の順位を,確率分布の形で表すものになる。
      Value の指標 p は,手番が勝ちになる可能性を,区間 [−1, 1] の実数で表すものになる。
      ともに,p の値が離散から連続になり,かつ実用のものになる。
     どうしてこうなるかは,不明。
     訓練のアルゴリズムは,こういうことは教えていない。
     訓練の中でモデルが勝手に,こうなるように育つ。