投機的デコーディング | LM Studio ドキュメント

必要なPython SDKバージョン: 1.2.0

投機的デコーディングは、大規模言語モデル (LLM) の応答品質を低下させることなく、生成速度を大幅に向上させることができる手法です。詳細については投機的デコーディングを参照してください。

lmstudio-python で投機的デコーディングを使用するには、予測実行時にdraftModelパラメータを指定するだけです。ドラフトモデルを個別にロードする必要はありません。

import lmstudio as lms

main_model_key = "qwen2.5-7b-instruct"
draft_model_key = "qwen2.5-0.5b-instruct"

model = lms.llm(main_model_key)
result = model.respond(
    "What are the prime numbers between 0 and 100?",
    config={
        "draftModel": draft_model_key,
    }
)

print(result)
stats = result.stats
print(f"Accepted {stats.accepted_draft_tokens_count}/{stats.predicted_tokens_count} tokens")