| Up | NASコントローラ と LLM の比較 | 作成: 2026-03-02 更新: 2026-03-05 |
しかし,文法的に成立していることと,それが意味をもつことは,別のことである。 設計は,評価と組のものになる。 評価が無いと,設計に進まない。 LLM だと,訓練+微調整 ( RLHF など) を済ました後は,そのまま使えているように見える。 そこで,コントローラーは LLM と何が違うのか?と考えたくなる。 比較は,「違いを見る」と「同じを見る」がある。 このとき,「違いを見る」は,外面の違いを見ることになって,簡単である。 一方「同じを見る」は,見えない内面を探ることになって,難しい。 「同じを見る」は,応分の知識が伴ってできることである。 コントローラーと LLM の違いと見えるものは,つぎの外見である: LLM は,「百科事典を読み込んで,何でも答えられるようになった賢者」。 一方,LLM とコントローラーは,以下の同型がある: ○ 「学習 = 経験値を上げる」 の同型 コントローラは,以下のループで,アーキテクチャの作成を学習する: ユーザ:アーキテクチャを評価 コントローラ:アーキテクチャを調整 LLM の出力は,テクストであるが,これは論説である。 ユーザは,LLM のテクスト出力に再びテクスト入力で応じるが,これは LLM の論説に対する評価である。 LLM は,以下のループで,論説の作成を学習する: ユーザ:論説を評価 LLM:論説を調整 ○ 「評価と自己史に整合的な出力」 の同型 評価と自己史に整合的なアーキテクチャを作成する 評価と自己史に整合的な論説を作成する ここで, コントローラ の「自己史」は, ここまでのアーキテクチャ作成の履歴 いまのセッションでここまでに出てきたテクスト 同一ユーザとの過去セッションの履歴 ○ 「生得(先天)・習得(後天) 構造」の同型 「生得(先天)」は,訓練で出来上がるパラメータ値であり,ROM に存する。 「習得(後天)」は,上に述べた「自己史」であり,RAM に存する。 「コントローラの強化学習」のことばは,「訓練=初期学習=強化学習」と紛れるが,これは内部パラメータの変更ではない。 RAM の内容の変更である。 これは,LLM の「LLM のテクストにユーザがテクストで返す」と対応するものである。 上に示した同型は,本質的である。 そこで結論は, 「NASコントローラ と LLM は,形式的に同じ」 ただし,両者のセッションの長さの違いに,留意しておく。 LLM は,ユーザとのやりとりの回数は,いくら多くても十の桁数だろう。 一方,NASコントローラだと,設計・評価の繰り返しは,何千回,何万回になる。 そしてモデルの訓練が重いプロセスになるので,初期のNAS(たとえば 2017年の Neural Architecture Search by Reinforcement Learning)では,1つのモデルに到達するのに数百GPU日を要している: 「GPU1機だと数百日かかる」 「1日で終わらせるには,数百機の GPU か要る」 しかしこの違いは,逆につぎのことを示唆する: いまの LLM も,AI の設計ができる。 実際,ChatGPT だと,AI 設計の知識を生得で持っている。 ジタバタする余裕 (時間・資源) を与えられたら,AI の設計をやってのけるだろう。 |