あれ
2025/8/4 23:46:00
この論文では「モデル拡張」手法を応用した「STEP」手法を用いて、LLMの事前学習時のGPUメモリーを削減している。
STEPを用いると、標準事前学習と比べて、最大メモリ要求量が368Mモデルで42.3%、680Mモデルで42.2%、1.2Bモデルで53.9%に削減できると報告されている。
安価なGPUでもLLMが学習できれば費用が低減できて嬉しい。消費電力を減らせれば費用低減できて嬉しいことに加えてエネルギー消費低減の点からSDGsへの貢献もできる。そういった意味で広範な意義がある研究。
個人的に手元のマシンのGPUが弱いのでこういう研究大好き。
疑問
モデルサイズが大きくなると削減率が高くなるような傾向があるんだろうか?
学習時間への影響はあるんだろうか?
次に読みたい
- 『ReLoRA: High-Rank Training Through Low-Rank Updates』
- 比較対象として挙げられているReLoRAの論文
- 『GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection』
- 比較対象として挙げられているGaLoreの論文
- 『Multi-level Residual Networks from Dynamical Systems View』
- STEPのベースとして用いられている技術の「内挿法」についての論文
- 『Towards Adaptive Residual Network Training: A Neural-ODE Perspective』
- STEPのベースとして用いられている技術の「内挿法」についての論文
- 『Automated Progressive Learning for Efficient Training of Vision Transformers』
- STEPのベースとして用いられている技術の「内挿法」についての論文