| Up | 構築の考え方 | 作成: 2026-03-01 更新: 2026-03-01 |
ところで,Transformer のやることは,ただひとつ つぎのレイヤー処理の繰り返しである: x_i^(ℓ) ├───────┐ │ Self-Attention │ ↓ │ z_i^(ℓ) │ │← LayerNorm │←─ Residual ─┘ │ │ ├───────┐ │ FFN │ ↓ │ z'_i^(ℓ) │ │← LayerNorm │←─ Residual ─┘ ↓ x_i^(ℓ+1) よって,つぎのうようになる: Transformer は, 訓練に使うデータセット次第で MML にも NASコントローラにもなる Transformer から MML をつくるときのデータセットは,テクストのビッグデータ。 これをただなぞらせる。 そうしたら,なんと, 入力されたテクストに応える脳 ができてしまった。 NAS のコントローラも,これと同じことになる。 データセットを工夫すると, 入力されたテンプレートを埋める脳 ができる。 |