AlphaZero : 脳が出来上がる

脳が出来上がる

作成: 2026-03-29
更新: 2026-03-31

設計者の＜つもり＞
- Policy の場合
  　　「局面から有望手を導く関数を学習させよう」
- Value の場合
  　　「局面から勝敗を導く関数を学習させよう」
出来上がったもの : 将棋がわかる脳
- 駒の価値，駒の連携
- 王の安全性，囲いの形
- 手筋，攻めの速度
- 受けの急所
モデルの内部表現の可視化
AlphaZero の内部表現を実際に解析したと称する研究は，つぎのことを確認したと主張する：
◦駒の価値
　　歩・銀・角・飛の価値が自然に分離される
　　交換の得・損をモデルが理解している
◦王の安全性
　　玉が危険な位置にいると Value が急落する
　　｢囲い」の概念が自然に形成される
◦手筋
　　叩きの歩
　　垂らし
　　端攻め
　　角交換からの攻め筋
　　などがモデル内部でクラスタとして現れる
◦形勢判断の軸
　　駒の効率
　　主導権
　　攻めの速度
　　受けの急所
　　などが多次元空間で分離される

これは，つぎのことを示す：
　　モデルは，｢アルゴリズムを学習」ではなく，
　　アルゴリズムとは別の｢脳的な概念空間を形成｣。

備考：内部表現可視化の技法
- PCA
- t-SNE
- Attention map
- Activation clustering