t_wの輪郭

Feedlyでフォローするボタン
日本語LLMベンチマーク
あれ『llm-jp-judge: 日本語LLM-as-a-Judge評価ツール』

あれ

2025/7/31 0:04:00

現在 llm-jp-judge は,Hugging Face Hubに登録されたオープンなLLM〜〜中略〜〜による推論に対応している

助かる。ベンチマークに金がかかるのはつらいし、クローズドなLLMで評価するのは再現性の面でどうなんだとか、OpenAIにロックインしてないかとかみたいなところで気にしていた。