ドキュメント
投機的デコーディング
必要なPython SDKバージョン: 1.2.0
投機的デコーディングは、大規模言語モデル (LLM) の応答品質を低下させることなく、生成速度を大幅に向上させることができる手法です。詳細については投機的デコーディングを参照してください。
lmstudio-python
で投機的デコーディングを使用するには、予測実行時にdraftModel
パラメータを指定するだけです。ドラフトモデルを個別にロードする必要はありません。
import lmstudio as lms
main_model_key = "qwen2.5-7b-instruct"
draft_model_key = "qwen2.5-0.5b-instruct"
model = lms.llm(main_model_key)
result = model.respond(
"What are the prime numbers between 0 and 100?",
config={
"draftModel": draft_model_key,
}
)
print(result)
stats = result.stats
print(f"Accepted {stats.accepted_draft_tokens_count}/{stats.predicted_tokens_count} tokens")