t_wの輪郭

Feedlyでフォローするボタン
強化学習報酬
『[2409.12822] Language Models Learn to Mislead Humans via RLHF』『人間を騙してサボるAIたち - ジョイジョイジョイ』