DPO『Prologによる解法知識を用いた誤答解説文付き多肢選択問題の生成』『難易度調整可能な多枝選択式読解問題自動生成手法とDirect Preference Optimizationによる難易度調整精度の向上』
あれ
2025/8/7 14:12:00
LLMの学習用途かと思ったら対人間の教育用途だった。
AIが無限に問題を生成できたら、人間も無限に学習できそう。
過去の研究では『Prologによる解法知識を用いた誤答解説文付き多肢選択問題の生成』とかもあるけど、文章を何も加工せずにLLMに処理させたら問題が出てくると、作成者にとってはかなり楽である。
難易度調整精度を最大化するために、DPOが使われている。DPO便利だ。