Up NASコントローラ と LLM の比較 作成: 2026-03-02
更新: 2026-03-05


    コントローラーは,これの構築において,設計の仕方を訓練されている。
    しかし,文法的に成立していることと,それが意味をもつことは,別のことである。
    設計は,評価と組のものになる。
    評価が無いと,設計に進まない。

    LLM だと,訓練+微調整 ( RLHF など) を済ました後は,そのまま使えているように見える。
    そこで,コントローラーは LLM と何が違うのか?と考えたくなる。


    比較は,「違いを見る」と「同じを見る」がある。

    このとき,「違いを見る」は,外面の違いを見ることになって,簡単である。
    一方「同じを見る」は,見えない内面を探ることになって,難しい。
    「同じを見る」は,応分の知識が伴ってできることである。


    コントローラーと LLM の違いと見えるものは,つぎの外見である:
    コントローラは,「迷宮を探索してゴールを目指す探検家」。
    LLM は,「百科事典を読み込んで,何でも答えられるようになった賢者」。

    一方,LLM とコントローラーは,以下の同型がある:


    「学習 = 経験値を上げる」 の同型
    コントローラの出力は,AI のアーキテクチャである。
    コントローラは,以下のループで,アーキテクチャの作成を学習する:
      コントローラ:アーキテクチャを作成
      ユーザ:アーキテクチャを評価
      コントローラ:アーキテクチャを調整

    LLM の出力は,テクストであるが,これは論説である。
    ユーザは,LLM のテクスト出力に再びテクスト入力で応じるが,これは LLM の論説に対する評価である。
    LLM は,以下のループで,論説の作成を学習する:
      LLM:論説を作成
      ユーザ:論説を評価
      LLM:論説を調整


    「評価と自己史に整合的な出力」 の同型
     ・コントローラは,ユーザの評価に対し,
      評価と自己史に整合的なアーキテクチャを作成する
     ・LLM は,ユーザの評価に対し
      評価と自己史に整合的な論説を作成する

    ここで, コントローラ の「自己史」は,
      いまユーザが伝えてきた評価
      ここまでのアーキテクチャ作成の履歴
    LLM の「自己史」は,
      いまユーザが入力してきたテクスト (評価)
      いまのセッションでここまでに出てきたテクスト
      同一ユーザとの過去セッションの履歴


    「生得(先天)・習得(後天) 構造」の同型
    コントローラも LLM も,訓練によって構築される AI モデルである。
    「生得(先天)」は,訓練で出来上がるパラメータ値であり,ROM に存する。
    「習得(後天)」は,上に述べた「自己史」であり,RAM に存する。

    「コントローラの強化学習」のことばは,「訓練=初期学習=強化学習」と紛れるが,これは内部パラメータの変更ではない。
    RAM の内容の変更である。
    これは,LLM の「LLM のテクストにユーザがテクストで返す」と対応するものである。


    上に示した同型は,本質的である。
    そこで結論は,
      「NASコントローラ と LLM は,形式的に同じ」 

    ただし,両者のセッションの長さの違いに,留意しておく。

    LLM は,ユーザとのやりとりの回数は,いくら多くても十の桁数だろう。
    一方,NASコントローラだと,設計・評価の繰り返しは,何千回,何万回になる。
    そしてモデルの訓練が重いプロセスになるので,初期のNAS(たとえば 2017年の Neural Architecture Search by Reinforcement Learning)では,1つのモデルに到達するのに数百GPU日を要している:
      「GPU1機だと数百日かかる」
      「1日で終わらせるには,数百機の GPU か要る」

    しかしこの違いは,逆につぎのことを示唆する:
      必要な継続時間と資源が与えられれば,
      いまの LLM も,AI の設計ができる。

    実際,ChatGPT だと,AI 設計の知識を生得で持っている。
    ジタバタする余裕 (時間・資源) を与えられたら,AI の設計をやってのけるだろう。