あれ2023/7/3 9:02:00 末尾の「だ、である」調と「です、ます」調 で Sentence Embeddingが極端に変わってしまって、類似度が低くなるのは、学習データの偏りもありそう。私t_wがデライトに投稿した文章から学習させているので、「だ、である」の文章が偏って多い。
『大規模言語AIにアキレス腱、訓練用データが2026年にも枯渇か』2023/3/16 3:46:00 https://www.technologyreview.jp/s/291329/we-could-run-out-of-data-to-train-ai-language-programs/