Transformer を NAS コントローラにする訓練は,つぎをするようになる訓練:
テンプレートの入力に対し
これを埋める「良いアーキテクチャの系列」を出力
この訓練に使われているデータセットは,つぎのものがある:
1. 既存の高性能アーキテクチャのコーパス
ResNet, MobileNet, EfficientNet, Transformer など,既に知られている高性能なアーキテクチャの構造をトークン列に変換して,教師データとする。
たとえば:
Input: "Image classification, latency < 50ms,
model size < 5MB"
Output: "Conv3x3-32 → ReLU → Conv3x3-64
→ ReLU → MaxPool → FC-1000"
2. 探索履歴からのログデータ
既に別の NAS 実験で得られた
「テンプレート → アーキテクチャ → 評価スコア」
のログを使って,良いスコアを出したアーキテクチャを教師データとして使う。
これは offline NAS や meta-NAS と呼ばれるアプローチで,過去の知見を活かして新しいタスクに素早く適応するために使われる。
3. 合成データ(シミュレーション)
探索空間をランダムにサンプリングして,シミュレータ(例えば,推定器やサロゲートモデル)で性能を予測し,擬似的に「良いアーキテクチャ」を作る。
実際の訓練を省略して高速にデータを集められる。
|