『Multi-level Residual Networks from Dynamical Systems View』
2025/8/4 23:44:00
この論文では「モデル拡張」手法を応用した「STEP」手法を用いて、LLMの事前学習時のGPUメモリーを削減している。
STEPを用いると、標準事前学習と比べて、最大メモリ要求量が368Mモデルで42.3%、680Mモデルで42.2%、1.2Bモデルで53.9%に削減できると報告されている。
安価なGPUでもLLMが学習できれば費用が低減できて嬉しい。消費電力を減らせれば費用低減できて嬉しいことに加えてエネルギー消費低減の点からSDGsへの貢献もできる。そういった意味で広範な意義がある研究。
個人的に手元のマシンのGPUが弱いのでこういう研究大好き。
モデルサイズが大きくなると削減率が高くなるような傾向があるんだろうか?
学習時間への影響はあるんだろうか?