- CNN モデル 2機
- Policy (「方策ネットワーク」)
- Value (「価値ネットワーク」)
- 外挿プログラム
- チャットAI の 「トークンベクトル」 (固定辞書) に対応するような固定ベクトル表は,存在しない。
入力とこれの内部翻訳は,つぎのようになる:
- 入力 : 盤面をテンソル表現したもの
- 内部翻訳:特徴ベクトル (256次元) の列
- モデルの構成
- 共通バックボーン(Residual Tower)
- Policy ヘッド
- Value ヘッド
◦共通バックボーン:Residual Tower
1. 入力
9×9×C のテンソル
9×9 : 縦×横 (マスの位置)
C : 駒配置・持ち駒・履歴などのチャンネル数
2. 最初の畳み込み層
3×3 の畳み込み
出力チャネル数:256
(「各マスに 256 次元ベクトル」)
3. 残差ブロック(Residual Block)
40 層(将棋の場合)
各ブロックは:
Conv(3×3, 256ch)
BatchNorm
ReLU
Conv(3×3, 256ch)
BatchNorm
Skip connection(残差)
ReLU
4. 出力
9×9×256 の特徴マップ
(「各マスに 256 次元ベクトル」)
◦Policy ヘッド(次の一手の確率分布)
バックボーンの出力(9×9×256)から:
1. 畳み込み層
1×1 の畳み込み
出力チャネル数:2
9×9×2 のテンソル
2. 平坦化(flatten)
→ 162 次元のベクトル
3. 全結合層
出力:全合法手の数に対応する次元
(将棋なら 1000 次元程度の「手の辞書」)
4. Softmax
→ 各手の確率分布(Policy)
◦Value ヘッド(局面の勝率)
バックボーンの出力(9×9×256)から:
1. 畳み込み層
1×1 の畳み込み
出力チャネル数:1
→ 9×9×1 のテンソル
2. 平坦化
→ 81 次元
3. 全結合層(256 次元)
ReLU
4. 全結合層(1 次元)
tanh
→ -1 〜 +1 の勝率(Value)
🧠
|