t_wの輪郭

RSS

GRPO

2025/2/26 16:26:00

『DeepSeekでも使われるGRPOをtrlで試す』『LLMチューニングのための強化学習：GRPO（Group Relative Policy Opti...『強化学習「GRPO」をCartPoleタスクで実装しながら解説』

『LLMチューニングのための強化学習：GRPO（Group Relative Policy Opti...

2025/3/13 13:50:00

https://horomary.hatenablog.com/entry/2025/01/26/204545#PPO-Proximal-Policy-Optimization

『強化学習「GRPO」をCartPoleタスクで実装しながら解説』

2025/3/13 13:49:00

https://zenn.dev/mkj/articles/10dfe35cd32026

『DeepSeekでも使われるGRPOをtrlで試す』

2025/2/26 16:26:00

https://zenn.dev/ksterx/articles/0b0e707e5329e9