『[強化学習]方策反復法と価値反復法についてコード付きで解説! | AGIRobots Blog』2024/11/1 13:43:00 https://developers.agirobots.com/jp/planning-dp/
『方策勾配法と方策勾配定理の導出 | AGIRobots Blog』2024/11/1 13:09:00 https://developers.agirobots.com/jp/policy-gradient-method/