Up アーキテクチャ 作成: 2026-03-29
更新: 2026-04-05


  • CNN モデル 2機
    • Policy (「方策ネットワーク」)
    • Value (「価値ネットワーク」)

  • 外挿プログラム
    • MCTS(モンテカルロ木探索)


  • チャットAI の 「トークンベクトル」 (固定辞書) に対応するような固定ベクトル表は,存在しない。
    入力とこれの内部翻訳は,つぎのようになる:
    • 入力 : 盤面をテンソル表現したもの
    • 内部翻訳:特徴ベクトル (256次元) の列


  • モデルの構成
    • 共通バックボーン(Residual Tower)
    • Policy ヘッド
    • Value ヘッド

    ◦共通バックボーン:Residual Tower
      1. 入力
      9×9×C のテンソル
        9×9 : 縦×横 (マスの位置)
        C : 駒配置・持ち駒・履歴などのチャンネル数
      2. 最初の畳み込み層
      3×3 の畳み込み
      出力チャネル数:256
      (「各マスに 256 次元ベクトル」)
      3. 残差ブロック(Residual Block)
      40 層(将棋の場合)
      各ブロックは:
        Conv(3×3, 256ch)
        BatchNorm
        ReLU
        Conv(3×3, 256ch)
        BatchNorm
        Skip connection(残差)
        ReLU
      4. 出力
      9×9×256 の特徴マップ
      (「各マスに 256 次元ベクトル」)

    ◦Policy ヘッド(次の一手の確率分布)
     バックボーンの出力(9×9×256)から:
      1. 畳み込み層
        1×1 の畳み込み
        出力チャネル数:2
         9×9×2 のテンソル
      2. 平坦化(flatten)
        → 162 次元のベクトル
      3. 全結合層
        出力:全合法手の数に対応する次元
        (将棋なら 1000 次元程度の「手の辞書」)
      4. Softmax
        → 各手の確率分布(Policy)

    ◦Value ヘッド(局面の勝率)
     バックボーンの出力(9×9×256)から:
      1. 畳み込み層
        1×1 の畳み込み
        出力チャネル数:1
        → 9×9×1 のテンソル
      2. 平坦化
        → 81 次元
      3. 全結合層(256 次元)
        ReLU
      4. 全結合層(1 次元)
        tanh
        → -1 〜 +1 の勝率(Value) 🧠