『Xユーザーの/さん: 「fp8の表現力が思ってたよりかなり低いな... あと、こうやって見ると、NNの重みや勾配の絶対値の平均が1.0付近で安定するよう初期化/スケール/正則化すれば低精度でも安定するんじゃないの?という感じがする」 / X』2025/1/12 15:15:00 https://x.com/kyo_takano/status/1878312135752851914
『Xユーザーの/さん: 「これの分散を1.0にするパターンがUnit Scaling (Blake, Orr, & Luschi, 2023)で既に提案されてた(フォロワーに教えてもらった)。 論文中Appendix Cで議論されてるんだけど、float値の実際の中央点は2^0じゃなくて2^1だそうなので、理論的には分散をちょうどπにするのが正しそう https://t.co/C8YR9MYyCH」 / X』2025/1/12 15:15:00 https://x.com/kyo_takano/status/1878324053406372296