ドキュメント
エージェントフロー
テキスト埋め込み
トークン化
モデルの管理
モデル情報
APIリファレンス
エージェントフロー
テキスト埋め込み
トークン化
モデルの管理
モデル情報
APIリファレンス
モデルの構成
モデルの推論時パラメータとロード時パラメータの両方をカスタマイズできます。推論パラメータはリクエストごとに設定できますが、ロードパラメータはモデルのロード時に設定されます。
推論時パラメータ(例:temperature
、maxTokens
、topP
など)を設定します。
const prediction = model.respond(chat, {
temperature: 0.6,
maxTokens: 50,
});
設定可能なすべてのフィールドについては、LLMPredictionConfigInput
を参照してください。
もう一つの有用な推論時設定パラメータはstructured
で、これによりJSONまたはzodスキーマを使用して出力の構造を厳密に強制できます。
コンテキスト長、GPUオフロード比率などのロード時パラメータを設定します。
.model()
でロードパラメータを設定する.model()
は、すでにロードされているモデルへのハンドルを取得するか、オンデマンド(JITローディング)で新しいモデルをロードします。
注意:モデルがすでにロードされている場合、設定は無視されます。
const model = await client.llm.model("qwen2.5-7b-instruct", {
config: {
contextLength: 8192,
gpu: {
ratio: 0.5,
},
},
});
設定可能なすべてのフィールドについては、LLMLoadModelConfig
を参照してください。
.load()
でロードパラメータを設定する.load()
メソッドは、新しいモデルインスタンスを作成し、指定された設定でロードします。
const model = await client.llm.load("qwen2.5-7b-instruct", {
config: {
contextLength: 8192,
gpu: {
ratio: 0.5,
},
},
});
設定可能なすべてのフィールドについては、LLMLoadModelConfig
を参照してください。
このページで
推論パラメータ
ロードパラメータ
.model() でロードパラメータを設定する
.load() でロードパラメータを設定する