t_wの輪郭

Feedlyでフォローするボタン
強化学習

GRPO

2025/2/26 16:26:00
『DeepSeekでも使われるGRPOをtrlで試す』『LLMチューニングのための強化学習:GRPO(Group Relative Policy Optimization) - どこから見てもメンダコ』『強化学習「GRPO」をCartPoleタスクで実装しながら解説』