CLI リファレンス

はじめに

プロジェクトセットアップ

基本

チャット

画像入力

構造化レスポンス

Speculative Decoding

予測のキャンセル

テキスト補完

設定パラメータ

チャットの操作

エージェントフロー

.act() コール

ツール定義

インテグレーション

プラグインの紹介

npm 依存関係の使用

ツールプロバイダー

プロンプトプリプロセッサ

ジェネレーター

カスタム設定

プラグインの発行

テキスト埋め込み

埋め込みベクトルの生成

トークン化

テキストのトークン化

モデルの管理

ローカルモデルの一覧

ロード済みモデルの一覧

モデルのロードとアクセス

APIリファレンス

LLMLoadModelConfig

LLMPredictionConfigInput

モデル情報

コンテキスト長を取得

モデル情報を取得

はじめに

プロジェクトセットアップ

基本

チャット

画像入力

構造化レスポンス

Speculative Decoding

予測のキャンセル

テキスト補完

設定パラメータ

チャットの操作

エージェントフロー

.act() コール

ツール定義

インテグレーション

プラグインの紹介

npm 依存関係の使用

ツールプロバイダー

プロンプトプリプロセッサ

ジェネレーター

カスタム設定

プラグインの発行

テキスト埋め込み

埋め込みベクトルの生成

トークン化

テキストのトークン化

モデルの管理

ローカルモデルの一覧

ロード済みモデルの一覧

モデルのロードとアクセス

APIリファレンス

LLMLoadModelConfig

LLMPredictionConfigInput

モデル情報

コンテキスト長を取得

モデル情報を取得

基本
Speculative Decoding

lmstudio-jsでドラフトモデルをスペキュラティブ・デコーディングに使用するためのAPI

スペキュラティブ・デコーディングとは、応答品質を低下させることなく、大規模言語モデル（LLM）の生成速度を大幅に向上させることができる技術です。詳細については、スペキュラティブ・デコーディングをご覧ください。

lmstudio-jsでスペキュラティブ・デコーディングを使用するには、予測を実行する際にdraftModelパラメータを指定するだけで済みます。ドラフトモデルを別途ロードする必要はありません。

import { LMStudioClient } from "@lmstudio/sdk";

const client = new LMStudioClient();

const mainModelKey = "qwen2.5-7b-instruct";
const draftModelKey = "qwen2.5-0.5b-instruct";

const model = await client.llm.model(mainModelKey);
const result = await model.respond("What are the prime numbers between 0 and 100?", {
  draftModel: draftModelKey,
});

const { content, stats } = result;
console.info(content);
console.info(`Accepted ${stats.acceptedDraftTokensCount}/${stats.predictedTokensCount} tokens`);

このページのソースはGitHubで利用可能です。