t_wの輪郭

あれ

2025/8/18 9:45:00

gpt-4o-2024-05-13は同一のseedを使用した場合でも，出力は決定的ではない5）ことに注意が必要

マジか。厳密な再現性がないじゃん。
公開されたモデルでも決定的にできないのかな。
『Advanced usage - OpenAI API』を読む感じではOpenAI側での設定に変更があると振る舞いが変わるっぽい？

LLM-as-a-Judge評価の安定性を検証
〜中略〜
実行ごとにHeron では約 1 ポイント，JVB-ItW では約 0.05 ポイントの変動が生じる

知りたかったやつだ。
これについてもTemparatureを0にし、Seedを固定してやっているのだろうか？そうだとしたら、設定の変更が否決定性のトリガーではなさそう？