| Up | Training 用データセット | 作成: 2026-02-21 更新: 2026-02-21 |
文 ↔ 要約 文 ↔ パラフレーズ タイトル ↔ 本文 検索クエリ ↔ クリックされた文書 翻訳文ペア(意味が同じ) そこで,この対応になった "意味が同じテクストペア" を大量につくって,Training 用データとする。 ここで,つぎの問題になる: それでも昔は,他に方法がなかったので,人の手でやった。 しかし今は,つぎの仕組みによって,ほぼ自動で作られている: ・Web の構造が自然にペアを提供 ・検索ログが自然な教師データになる (1) LLM による「パラフレーズ生成」 犬が好きです。 を LLM に渡して, この文と意味が同じ別の表現を5つ作ってください。 と指示すると,LLM は: 私は犬が大好きです 犬がとても好きです 犬に好意を持っています 犬が好きという気持ちがあります 犬が好きなんです といったペアを大量に生成できる。 これが 文 ↔ パラフレーズ の訓練データにる。 (2) LLM による「要約生成」 この文章を短く要約してください。 と指示すれば, 文 ↔ 要約 タイトル ↔ 本文 のペアが自動で作れる。 (3) LLM による「質問生成」 この文章に対する質問を作ってください。 と指示すると, 質問 ↔ 回答 クエリ ↔ 文書 のペアが作れる。 これは検索エンジンの訓練で非常に重要。 (4) LLM/翻訳モデルによる「翻訳ペア生成」 この文を英語に翻訳してください。 と指示すれば, 翻訳文ペア(意味が同じ) が大量に作れる。 (5) 実際のユーザーデータ(クリックログなど) ・クリックした文書 ・長く読んだ文書 ・購入した商品 例: クエリ :犬のしつけ方 クリック文書:初心者向けの犬のしつけガイド (6) 大規模データセットの自動構築 (パラフレーズ,要約,質問,翻訳) ・ Web の構造を利用 (タイトル ↔ 本文,見出し ↔ 段落) ・ 検索ログを利用 (クエリ ↔ クリック文書) ・ 既存の公開データセットを利用 (自然言語推論,QA,要約など) これらを組み合わせて,数億〜数十億ペア の訓練データを作る。 |