- 通説は,つぎのように説く:
「文脈 → 次のトークン」 には確率がある。
次トークンは,文脈から確率で決まる。
しかし,「文脈 → 次のトークン」 に確率など存在しないことは,自明である。
確率は,物理から算出される。
そして,確率がわかっている物理に適用される。
「確率」 のこのしくみを,通説はわかっていない。
- 通説は,Transformer アルゴリズムの変数 p を,
「文脈 → 次のトークン」 の確率だと思っている。
これは間違い。
pは,訓練時に,つぎのように使われた:
訓練は「テクストをただなぞる」だが,
このとき,
次トークンの ID が i であるのに対し,
p が,p_i =1 の one-hot に近くなるように,
逆伝播でパラメータ値を調整する。
テクスト生成は,この変数 p をそのまま使う。
通説は,これを 「文脈 → 次のトークン」 の確率だと思う。
- 通説は,なぜこのようなことになるのか?
技術者は,数学の意味を考える者ではなく,数学を寄せ集めて使う者だからである。
使ってそれが好い結果になれば,その数学使用は正しかった,になる。
技術論は,結果主義なのである。
レヴィ・ストロースの『野生の思考』で謂う「ブリコラージュ」である。
|