ドキュメント

投機的デコーディング

投機的デコーディングは、大規模言語モデル (LLM) の応答品質を低下させることなく、生成速度を大幅に向上させることができる技術です。詳細については投機的デコーディングを参照してください。

lmstudio-js で投機的デコーディングを使用するには、予測を実行する際に draftModel パラメータを指定するだけです。ドラフトモデルを個別にロードする必要はありません。

import { LMStudioClient } from "@lmstudio/sdk";

const client = new LMStudioClient();

const mainModelKey = "qwen2.5-7b-instruct";
const draftModelKey = "qwen2.5-0.5b-instruct";

const model = await client.llm.model(mainModelKey);
const result = await model.respond("What are the prime numbers between 0 and 100?", {
  draftModel: draftModelKey,
});

const { content, stats } = result;
console.info(content);
console.info(`Accepted ${stats.acceptedDraftTokensCount}/${stats.predictedTokensCount} tokens`);