AI : NAS : 強化学習

強化学習 (Reinforcement Learning, RL)

作成: 2026-02-28
更新: 2026-03-01

（以下は通説である。
　コントローラが実際にしていることは，不可視・不可思議。)

コントローラがアーキテクチャ A を設計（穴を埋める）
A を訓練・評価 → 報酬 R = 0.8 を得る
コントローラは，A を生成した確率 log P(A) を計算
勾配を計算：
　　　∇J(θ) = R⋅∇log ⁡P(A;θ)

P(conv) = 0.6, P(pool) = 0.3, P(fc) = 0.1

P(3) = 0.5, P(5) = 0.3, P(7) = 0.2

　P(layer_type) = [conv: 0.6, pool: 0.3, fc: 0.1]

何千回，何万回