- 設計者の<つもり>
- Policy の場合
「局面から有望手を導く関数を学習させよう」
- Value の場合
「局面から勝敗を導く関数を学習させよう」
- 出来上がったもの : 将棋がわかる脳
- 駒の価値,駒の連携
- 王の安全性,囲いの形
- 手筋,攻めの速度
- 受けの急所
- モデルの内部表現の可視化
AlphaZero の内部表現を実際に解析したと称する研究は,つぎのことを確認したと主張する:
◦駒の価値
歩・銀・角・飛の価値が自然に分離される
交換の得・損をモデルが理解している
◦王の安全性
玉が危険な位置にいると Value が急落する
「囲い」の概念が自然に形成される
◦手筋
叩きの歩
垂らし
端攻め
角交換からの攻め筋
などがモデル内部でクラスタとして現れる
◦形勢判断の軸
駒の効率
主導権
攻めの速度
受けの急所
などが多次元空間で分離される
これは,つぎのことを示す:
モデルは,「アルゴリズムを学習」ではなく,
アルゴリズムとは別の 「脳的な概念空間を形成」 。
備考:内部表現可視化の技法
- PCA
- t-SNE
- Attention map
- Activation clustering
|