Up テクストの糸をつくる 作成: 2023-06-29
更新: 2025-06-29


    Transformer に入力されたテクストS は,トークン分割される:
       T = [ t_1, ‥‥, t_m ]

    トークン t_i の ID を,ID_i と表す。

    T に対応するトークン点の列を
       X = [ x_1, ‥‥, x_m ]
    とする。
    即ち,
       x_i = TV( ID_i )


    Transformer は,X から NT次元の確率分布ベクトルの列
       P = [ p_1, ‥‥, p_m ]
    を算出する。

    Transformer 脳は,「学習」によってつくられる。
    この脳の成長は,X に対する P がつぎのようになっていくことである:
     ・p_i ( i = 1, ‥‥, m ) は, 「ほぼ one-hot」
       (「one-hot」とは,「1つの項が1で,他は0」。)
     ・p_ik ( i < m ) が「ほぼ1」ならば,k = ID_(i+1)
     ・p_mk が「ほぼ1」ならば,k は<EOS>の ID
         (<EOS> : トークン<文末>のトークン点)

    つまり,
      p_i ( i < k ) は,「x_i のつぎは x_(i+1)」 を示し,
      p_m は,「x_m のつぎは<EOS>」 を示す。
    まとめて,
      [ p_1, ‥‥, p_m ] は,
       [ x_1, x_2, ‥‥, x_m, <EOS>] を示す。


    こうして,PはテクストXの表現になる。
    このPを実現しているのは,TV と W の値である。
    ここで,その値の空間的表象として,「テクストXの糸」を措定する。
    イメージは,D次元数空間の曲線で,x_1, ‥‥, x_m をこの順で通る。

    テクストの糸」は,仮構「トークン点──D次元数空間の点」に乗った仮構である。
    作業仮説的に仮構される存在であり,D次元数空間の曲線として式表現できるものではない。