Up 学習 = 経験値を上げる 作成: 2026-03-02
更新: 2026-03-04


    NAS のコントローラは,以下のようなループで学習する:
      コントローラ:
         テンプレートの穴変数に値を代入
         (アーキテクチャを設計)
      ユーザ:
         アーキテクチャを訓練 (構築)
         検証データで性能を測る(評価)
         性能を報酬としてコントローラに返す
      コントローラ:
         報酬をもとに,穴変数に代入する値を導出
         (「学習する」)

    コントローラは,これの構築において「設計の仕方」を訓練されている。
    しかし,「設計の良し悪し」はわからない。
    実際,「設計の良し悪し」は,モデルを構築してそれを試してわかること。
    ユーザは,その結果を 「評価」 し,コントローラに 「報酬」 として伝える。


    コントローラは,評価と探索が組である。
    評価が駆動する探索の中身は,
      自己史整合的なアーキテクチャの作成

    選択 (穴の埋め方) は,自己史によっている。
    コントローラ は,
      いま伝えられた報酬
      過去の設計の履歴
    に整合するように,次の設計を決める。


    「自己史整合的なアーキテクチャの作成」は,「経験値」である。
    コントローラの「学習」は,「経験値を上げる」 。