ドキュメント
エージェントフロー
インテグレーション
テキスト埋め込み
トークン化
モデル情報
エージェントフロー
インテグレーション
テキスト埋め込み
トークン化
モデル情報
基本
モデルの構成
モデルの推論時間およびロード時間パラメータを設定するためのAPI
モデルの推論時間パラメータとロード時間パラメータの両方をカスタマイズできます。推論パラメータはリクエストごとに設定でき、ロードパラメータはモデルをロードするときに設定されます。
temperature、maxTokens、topPなどの推論時間パラメータを設定します。
const prediction = model.respond(chat, {
temperature: 0.6,
maxTokens: 50,
});
設定可能なフィールドのすべてについては、LLMPredictionConfigInputを参照してください。
もう1つの便利な推論時間構成パラメータは、structuredです。これにより、JSONまたはzodスキーマを使用して出力の構造を厳密に強制できます。
コンテキスト長、GPUオフロード率などのロード時間パラメータを設定します。
.model() でロードパラメータを設定する.model() は、既にロードされているモデルへのハンドルを取得するか、オンデマンド(JITロード)で新しいモデルをロードします。
注意: モデルが既にロードされている場合、構成は無視されます。
const model = await client.llm.model("qwen2.5-7b-instruct", {
config: {
contextLength: 8192,
gpu: {
ratio: 0.5,
},
},
});
設定可能なフィールドのすべてについては、LLMLoadModelConfigを参照してください。
.load() でロードパラメータを設定する.load() メソッドは新しいモデルインスタンスを作成し、指定された構成でロードします。
const model = await client.llm.load("qwen2.5-7b-instruct", {
config: {
contextLength: 8192,
gpu: {
ratio: 0.5,
},
},
});
設定可能なフィールドのすべてについては、LLMLoadModelConfigを参照してください。
このページのソースはGitHubで入手できます。