ドキュメント

始め方

エージェントフロー

テキスト埋め込み

トークン化

モデルの管理

モデル情報

モデルの構成

モデルの推論時パラメータとロード時パラメータの両方をカスタマイズできます。推論パラメータはリクエストごとに設定でき、ロードパラメータはモデルのロード時に設定されます。

推論パラメータ

推論時パラメータとして、temperaturemaxTokenstopPなどを設定します。

result = model.respond(chat, config={
    "temperature": 0.6,
    "maxTokens": 50,
})

設定可能なすべてのフィールドについては、Typescript SDKドキュメントのLLMPredictionConfigInputを参照してください。

`structured`は推論時の設定パラメータとしてJSONスキーマ定義に設定できますが(Python SDKではZodスキーマはサポートされていません)、代わりに専用のresponse_formatパラメータを設定する方が推奨されるアプローチです。これにより、JSONまたはクラスベースのスキーマ定義を使用して出力の構造をより厳密に強制できます。

ロードパラメータ

コンテキスト長、GPUオフロード比率などのロード時パラメータを設定します。

.model()でロードパラメータを設定

.model()は、すでにロードされているモデルへのハンドルを取得するか、オンデマンドで新しいモデルをロードします(JITロード)。

注意:モデルがすでにロードされている場合、指定された設定は無視されます

import lmstudio as lms
model = lms.llm("qwen2.5-7b-instruct", config={
    "contextLength": 8192,
    "gpu": {
      "ratio": 0.5,
    }
})

設定可能なすべてのフィールドについては、Typescript SDKドキュメントのLLMLoadModelConfigを参照してください。

.load_new_instance()でロードパラメータを設定

.load_new_instance()メソッドは、新しいモデルインスタンスを作成し、指定された設定でロードします。

import lmstudio as lms
client = lms.get_default_client()
model = client.llm.load_new_instance("qwen2.5-7b-instruct", config={
    "contextLength": 8192,
    "gpu": {
      "ratio": 0.5,
    }
})

設定可能なすべてのフィールドについては、Typescript SDKドキュメントのLLMLoadModelConfigを参照してください。