Up 「探索の爆発」 対策 (「探索戦略」) 作成: 2026-03-04
更新: 2026-03-04


    設計は,「探索と活用 exploration vs. exploitation」のバランス
    この 「匙加減」 を,exploration-exploitation trade-off と呼ぶ。

    「全ての組み合わせ」による探索の爆発も,探索空間の制限という形で,大枠で抑える:
      テンプレートの自由度を絞る
      (例:層数を固定,候補を減らす)
    一方,探索の多様性を保つことを工夫:
      報酬に「新規性」や「多様性」を加味する

    このトレードオフを立てることを,「探索戦略」と呼ぶ。