t_wの輪郭

Feedlyでフォローするボタン
強化学習

GRPO

2025/2/26 16:26:00
『DeepSeekでも使われるGRPOをtrlで試す』