AlphaZero

アーキテクチャ

作成: 2026-03-29
更新: 2026-04-05

CNN モデル２機
- Policy (｢方策ネットワーク｣)
- Value (｢価値ネットワーク｣)
外挿プログラム
- MCTS（モンテカルロ木探索）
チャットAI の｢トークンベクトル｣ (固定辞書) に対応するような固定ベクトル表は，存在しない。
入力とこれの内部翻訳は，つぎのようになる：
- 入力 : 盤面をテンソル表現したもの
- 内部翻訳：特徴ベクトル (256次元) の列
モデルの構成
- 共通バックボーン（Residual Tower）
- Policy ヘッド
- Value ヘッド
◦共通バックボーン：Residual Tower
　 1. 入力
　 2. 最初の畳み込み層
　 3. 残差ブロック（Residual Block）
　 4. 出力
◦Policy ヘッド（次の一手の確率分布）
　バックボーンの出力（9×9×256）から：
　 1. 畳み込み層
　　　　1×1 の畳み込み
　　　　出力チャネル数：2
　　　　 9×9×2 のテンソル
　 2. 平坦化（flatten）
　　　　→ 162 次元のベクトル
　 3. 全結合層
　　　　出力：全合法手の数に対応する次元
　　　　（将棋なら 1000 次元程度の「手の辞書」）
　 4. Softmax
　　　　→ 各手の確率分布（Policy）

◦Value ヘッド（局面の勝率）
　バックボーンの出力（9×9×256）から：
　 1. 畳み込み層
　　　　1×1 の畳み込み
　　　　出力チャネル数：1
　　　　→ 9×9×1 のテンソル
　 2. 平坦化
　　　　→ 81 次元
　 3. 全結合層（256 次元）
　　　　ReLU
　 4. 全結合層（1 次元）
　　　　tanh
　　　　→ -1 〜 +1 の勝率（Value） 🧠