ドキュメント
モデルの構成
モデルの推論時パラメータとロード時パラメータの両方をカスタマイズできます。推論パラメータはリクエストごとに設定でき、ロードパラメータはモデルのロード時に設定されます。
推論時パラメータとして、temperature
、maxTokens
、topP
などを設定します。
result = model.respond(chat, config={
"temperature": 0.6,
"maxTokens": 50,
})
設定可能なすべてのフィールドについては、Typescript SDKドキュメントのLLMPredictionConfigInput
を参照してください。
`structured`は推論時の設定パラメータとしてJSONスキーマ定義に設定できますが(Python SDKではZodスキーマはサポートされていません)、代わりに専用のresponse_format
パラメータを設定する方が推奨されるアプローチです。これにより、JSONまたはクラスベースのスキーマ定義を使用して出力の構造をより厳密に強制できます。
コンテキスト長、GPUオフロード比率などのロード時パラメータを設定します。
.model()
でロードパラメータを設定.model()
は、すでにロードされているモデルへのハンドルを取得するか、オンデマンドで新しいモデルをロードします(JITロード)。
注意:モデルがすでにロードされている場合、指定された設定は無視されます。
import lmstudio as lms
model = lms.llm("qwen2.5-7b-instruct", config={
"contextLength": 8192,
"gpu": {
"ratio": 0.5,
}
})
設定可能なすべてのフィールドについては、Typescript SDKドキュメントのLLMLoadModelConfig
を参照してください。
.load_new_instance()
でロードパラメータを設定.load_new_instance()
メソッドは、新しいモデルインスタンスを作成し、指定された設定でロードします。
import lmstudio as lms
client = lms.get_default_client()
model = client.llm.load_new_instance("qwen2.5-7b-instruct", config={
"contextLength": 8192,
"gpu": {
"ratio": 0.5,
}
})
設定可能なすべてのフィールドについては、Typescript SDKドキュメントのLLMLoadModelConfig
を参照してください。
このページの内容
推論パラメータ
ロードパラメータ
.model()でロードパラメータを設定
.load_new_instance()でロードパラメータを設定