あれ2025/7/31 0:04:00 現在 llm-jp-judge は,Hugging Face Hubに登録されたオープンなLLM〜〜中略〜〜による推論に対応している 助かる。ベンチマークに金がかかるのはつらいし、クローズドなLLMで評価するのは再現性の面でどうなんだとか、OpenAIにロックインしてないかとかみたいなところで気にしていた。
『llm-jp-judge: 日本語LLM-as-a-Judge評価ツール』2025/7/31 0:00:00 https://www.anlp.jp/proceedings/annual_meeting/2025/pdf_dir/Q2-4.pdf