Up | 入力データの処理 (入力層)──埋め込みベクトル | 作成: 2025-05-16 更新: 2025-05-16 |
L(S) で表す。 1.2 トークン検索 S から未登録トークン (未知語) が出てきたときは,つぎの「脱構築的トークン化」を処置する:
(サブワードの例:WordPiece や BPE ) こうして S は,トークン ID の並び ( ID_1, ID_2, ..., ID_L(S)) に表現され,ID にはトークンベクトルが対応する。 P(L) = ( p_ij ) を,つぎのように定義する: i が偶数のとき:p_ij = sin( i / 10000^(j/D) ) i が奇数のとき:p_ij = cos( i / 10000^((j-1)/D ) ` この行列を, E(S) で表し,「Sの埋め込み行列」と呼ぶ。 3.2 埋め込み行列と位置エンコーディングの合成 ・E(S) : S の埋め込み行列 ・P(L(S)) : S のトークンベクトルの位置エンコーディング そしてこれを,2つの 行列 ( L(S)×D 行列) の和 X(S) = E(S) + P(L(S)) で実現する。 註 :「加算」のポイント そしてこの方法は,実用的である: ・シンプルで計算効率が良い (位置と意味を分けずに処理できる) ・実験的にも有効(原論文 "Attention is All You Need") 3.3 Self-Attention へ Self-Attention のステージに入ると,行列 X(S) の形は保たれず,行ベクトルがバラバラになる。 しかし各ベクトルは,「Sのどこにあるトークンのベクトルか」の情報になっているので,S が保たれる:
|