Up トークン表 (embedding_matrix) 作成: 2025-05-16
更新: 2025-05-17


  • トークン表
    トークンは,つぎの表現を以て,登録される:
    1. トークンID : ユニークな ID
    2. トークンベクトル : D次元実数ベクトル ( D : 固定)

    以降,ID が n のトークンベクトル (「埋め込みベクトル」) を,
        T(n)
    と表す。


  • トークン検索
    検索は,辞書型データ構造(ハッシュマップ)を使う:
      python
      "cat"
      → token_to_id["cat"] = 845
      → embedding_matrix[845] = T(845)
    ここで embedding_matrix は,V × D 行列 (V : トークン数)。


  • トークンベクトルの初期設定
    トークンベクトルは,学習で変わっていくものである。
    これの登録では,初期値を設定することになる。
    初期値は,基本ランダムだが,"小さな乱数" にする:
    • 平均0, 分散の小さいガウス分布(正規分布)や一様分布。
    これの意味は,「トークンは全て,初期状態では対等に扱われる」。