モデルの推論時パラメータとロード時パラメータの両方をカスタマイズできます。推論パラメータはリクエストごとに設定でき、ロードパラメータはモデルのロード時に設定されます。

推論パラメータ

推論時パラメータとして、temperature、maxTokens、topPなどを設定します。

result = model.respond(chat, config={
    "temperature": 0.6,
    "maxTokens": 50,
})

設定可能なすべてのフィールドについては、Typescript SDKドキュメントのLLMPredictionConfigInputを参照してください。

`structured`は推論時の設定パラメータとしてJSONスキーマ定義に設定できますが（Python SDKではZodスキーマはサポートされていません）、代わりに専用のresponse_formatパラメータを設定する方が推奨されるアプローチです。これにより、JSONまたはクラスベースのスキーマ定義を使用して出力の構造をより厳密に強制できます。

ロードパラメータ

コンテキスト長、GPUオフロード比率などのロード時パラメータを設定します。

`.model()`でロードパラメータを設定

.model()は、すでにロードされているモデルへのハンドルを取得するか、オンデマンドで新しいモデルをロードします（JITロード）。

注意：モデルがすでにロードされている場合、指定された設定は無視されます。

import lmstudio as lms
model = lms.llm("qwen2.5-7b-instruct", config={
    "contextLength": 8192,
    "gpu": {
      "ratio": 0.5,
    }
})

設定可能なすべてのフィールドについては、Typescript SDKドキュメントのLLMLoadModelConfigを参照してください。

`.load_new_instance()`でロードパラメータを設定

.load_new_instance()メソッドは、新しいモデルインスタンスを作成し、指定された設定でロードします。

import lmstudio as lms
client = lms.get_default_client()
model = client.llm.load_new_instance("qwen2.5-7b-instruct", config={
    "contextLength": 8192,
    "gpu": {
      "ratio": 0.5,
    }
})

設定可能なすべてのフィールドについては、Typescript SDKドキュメントのLLMLoadModelConfigを参照してください。

モデルの構成

推論パラメータ

ロードパラメータ

.model()でロードパラメータを設定

.load_new_instance()でロードパラメータを設定

`.model()`でロードパラメータを設定

`.load_new_instance()`でロードパラメータを設定