『大規模言語モデルの再パラメタ化に基づく初期化による損失スパイクの抑制』2025/8/11 21:35:00 https://www.anlp.jp/proceedings/annual_meeting/2025/pdf_dir/C10-5.pdf