『llm-jp-eval-mm: 日本語視覚言語モデルの自動評価基盤』
2025/8/18 9:26:00
gpt-4o-2024-05-13は同一のseedを使用した場合でも,出力は決定的ではない5)ことに注意が必要
マジか。厳密な再現性がないじゃん。
公開されたモデルでも決定的にできないのかな。
『Advanced usage - OpenAI API』を読む感じではOpenAI側での設定に変更があると振る舞いが変わるっぽい?
LLM-as-a-Judge評価の安定性を検証
〜中略〜
実行ごとにHeron では約 1 ポイント,JVB-ItW では約 0.05 ポイントの変動が生じる
知りたかったやつだ。
これについてもTemparatureを0にし、Seedを固定してやっているのだろうか?そうだとしたら、設定の変更が否決定性のトリガーではなさそう?