ドキュメント
エージェントフロー
テキスト埋め込み
トークン化
モデルの管理
モデル情報
APIリファレンス
エージェントフロー
テキスト埋め込み
トークン化
モデルの管理
モデル情報
APIリファレンス
投機的デコーディング
投機的デコーディングは、大規模言語モデル (LLM) の応答品質を低下させることなく、生成速度を大幅に向上させることができる技術です。詳細については投機的デコーディングを参照してください。
lmstudio-js
で投機的デコーディングを使用するには、予測を実行する際に draftModel
パラメータを指定するだけです。ドラフトモデルを個別にロードする必要はありません。
import { LMStudioClient } from "@lmstudio/sdk";
const client = new LMStudioClient();
const mainModelKey = "qwen2.5-7b-instruct";
const draftModelKey = "qwen2.5-0.5b-instruct";
const model = await client.llm.model(mainModelKey);
const result = await model.respond("What are the prime numbers between 0 and 100?", {
draftModel: draftModelKey,
});
const { content, stats } = result;
console.info(content);
console.info(`Accepted ${stats.acceptedDraftTokensCount}/${stats.predictedTokensCount} tokens`);