Transformer : 事前学習 : 入力データのサイズ制限

入力データのサイズ制限

作成: 2025-05-16
更新: 2025-05-16

◆ 結論から先に

Transformer は「固定長の入力までしか扱えません」。
長すぎるテキストは、分割して処理されます（ただし文単位ではなく「トークン数単位」）。

◆ 詳しく説明します

① 長文も「一度にすべて入力」はできない

「一度に処理できるトークン数」に上限があります

コンテキスト長（context length）

シーケンス長（sequence length）

ハードウェア制約と計算量の都合

② 入力は「文単位」ではなく「トークン単位」で裁断される

一定のトークン数で区切って処理します

スライディングウィンドウ

分割して別のバッチで学習する

③ では「長文をどう学習させるのか？」

連続的にトークン列へ変換

◆ まとめ（ポイント再掲）

項目	内容
モデルの入力上限	トークン数で定義され、モデルごとに異なる（例：2048、8192、32K など）
長文の扱い	トークン列に変換 → 上限トークン数で切る → 順に学習へ投入
文単位か？	いいえ。「文」ではなく「トークン長」で扱う（文の途中で切れても構わない）
前後の文脈の扱い	入力トークンの中でしか保持されない。上限を超えた文脈は「忘れる」