ドキュメント
エージェントフロー
インテグレーション
テキスト埋め込み
トークン化
モデル情報
エージェントフロー
インテグレーション
テキスト埋め込み
トークン化
モデル情報
基本
Speculative Decoding
lmstudio-jsでドラフトモデルをスペキュラティブ・デコーディングに使用するためのAPI
スペキュラティブ・デコーディングとは、応答品質を低下させることなく、大規模言語モデル(LLM)の生成速度を大幅に向上させることができる技術です。詳細については、スペキュラティブ・デコーディングをご覧ください。
lmstudio-jsでスペキュラティブ・デコーディングを使用するには、予測を実行する際にdraftModelパラメータを指定するだけで済みます。ドラフトモデルを別途ロードする必要はありません。
import { LMStudioClient } from "@lmstudio/sdk";
const client = new LMStudioClient();
const mainModelKey = "qwen2.5-7b-instruct";
const draftModelKey = "qwen2.5-0.5b-instruct";
const model = await client.llm.model(mainModelKey);
const result = await model.respond("What are the prime numbers between 0 and 100?", {
draftModel: draftModelKey,
});
const { content, stats } = result;
console.info(content);
console.info(`Accepted ${stats.acceptedDraftTokensCount}/${stats.predictedTokensCount} tokens`);
このページのソースはGitHubで利用可能です。