あれ
2025/3/27 22:51:00
LM StudioでSpeculative Decodingを試したが、生成速度は早くならず遅くなった。
- Speculative Decodingなし:5.64 tok/sec
- Speculative Decodingあり(model: Qwen2.5-coder14b, draft: Qwen2.5-coder0.5b):4.65 tok/sec
LM StudioでSpeculative Decodingを試したが、生成速度は早くならず遅くなった。