AI : NAS : モデルの評価

モデルの評価

作成: 2026-03-02
更新: 2026-03-02

検証データ

データの種類	目的	使うタイミング
訓練データ (training set)	モデルの学習	学習中
検証データ (validation set)	モデルの性能の途中チェック	学習の合間
テストデータ (test set)	モデルの性能の最終的チェック	学習後

評価

正解率（Accuracy）：テスト画像に対して，正しく分類できた割合。
損失関数の値（Loss）：予測と正解のズレの大きさ。

BLEUスコア（翻訳の正確さ）
F1スコア（精度と再現率のバランス）

パラメータ数（モデルの大きさ）
推論時間（どれだけ速く答えを出せるか）
消費メモリやエネルギー (リソース効率)

def evaluate(model, dataloader, criterion, device): model.eval() total_loss = 0 correct = 0 total = 0 with torch.no_grad(): for inputs, labels in dataloader: inputs, labels = inputs.to(device), labels.to(device) outputs = model(inputs) loss = criterion(outputs, labels) total_loss += loss.item() preds = outputs.argmax(dim=1) correct += (preds == labels).sum().item() total += labels.size(0) accuracy = correct / total avg_loss = total_loss / len(dataloader) return accuracy, avg_loss

報酬

python def reward_function(validation_accuracy): return validation_accuracy

def reward_function(acc, model_size): # モデルが大きいとペナルティ return acc - 0.01 * model_size

def reward_function(acc, latency): # 遅いモデルは報酬が下がる return acc - 0.05 * latency