t_wの輪郭

Feedlyでフォローするボタン
強化学習

DPO

2024/3/10 13:46:00

Direct Preference Optimization

『Fine-tune Llama 2 with DPO』TRL『Direct Preference Optimization: Your Language Model is Secretly a Reward Model』あれ

あれ

2025/8/7 14:12:00

LLMの学習用途かと思ったら対人間の教育用途だった。
AIが無限に問題を生成できたら、人間も無限に学習できそう。


過去の研究では『Prologによる解法知識を用いた誤答解説文付き多肢選択問題の生成』とかもあるけど、文章を何も加工せずにLLMに処理させたら問題が出てくると、作成者にとってはかなり楽である。



難易度調整精度を最大化するために、DPOが使われている。DPO便利だ。