- トークン表
トークンは,つぎの表現を以て,登録される:
- トークンID : ユニークな ID
- トークンベクトル : D次元実数ベクトル ( D : 固定)
以降,ID が n のトークンベクトル (「埋め込みベクトル」) を,
T(n)
と表す。
- トークン検索
検索は,辞書型データ構造(ハッシュマップ)を使う:
python
"cat"
→ token_to_id["cat"] = 845
→ embedding_matrix[845] = T(845)
ここで embedding_matrix は,V × D 行列 (V : トークン数)。
- トークンベクトルの初期設定
トークンベクトルは,学習で変わっていくものである。
これの登録では,初期値を設定することになる。
初期値は,基本ランダムだが,"小さな乱数" にする:
- 平均0, 分散の小さいガウス分布(正規分布)や一様分布。
これの意味は,「トークンは全て,初期状態では対等に扱われる」。
|