ドキュメント

基本

Speculative Decoding

lmstudio-jsでドラフトモデルをスペキュラティブ・デコーディングに使用するためのAPI

スペキュラティブ・デコーディングとは、応答品質を低下させることなく、大規模言語モデル(LLM)の生成速度を大幅に向上させることができる技術です。詳細については、スペキュラティブ・デコーディングをご覧ください。

lmstudio-jsでスペキュラティブ・デコーディングを使用するには、予測を実行する際にdraftModelパラメータを指定するだけで済みます。ドラフトモデルを別途ロードする必要はありません。

import { LMStudioClient } from "@lmstudio/sdk";

const client = new LMStudioClient();

const mainModelKey = "qwen2.5-7b-instruct";
const draftModelKey = "qwen2.5-0.5b-instruct";

const model = await client.llm.model(mainModelKey);
const result = await model.respond("What are the prime numbers between 0 and 100?", {
  draftModel: draftModelKey,
});

const { content, stats } = result;
console.info(content);
console.info(`Accepted ${stats.acceptedDraftTokensCount}/${stats.predictedTokensCount} tokens`);

このページのソースはGitHubで利用可能です。