| Up | 学習 = 経験値を上げる | 作成: 2026-03-02 更新: 2026-03-04 |
テンプレートの穴変数に値を代入 (アーキテクチャを設計) アーキテクチャを訓練 (構築) 検証データで性能を測る(評価) 性能を報酬としてコントローラに返す 報酬をもとに,穴変数に代入する値を導出 (「学習する」) コントローラは,これの構築において「設計の仕方」を訓練されている。 しかし,「設計の良し悪し」はわからない。 実際,「設計の良し悪し」は,モデルを構築してそれを試してわかること。 ユーザは,その結果を 「評価」 し,コントローラに 「報酬」 として伝える。 コントローラは,評価と探索が組である。 評価が駆動する探索の中身は, 自己史整合的なアーキテクチャの作成 選択 (穴の埋め方) は,自己史によっている。 コントローラ は, いま伝えられた報酬 過去の設計の履歴 に整合するように,次の設計を決める。 「自己史整合的なアーキテクチャの作成」は,「経験値」である。 コントローラの「学習」は,「経験値を上げる」 。 |