ドキュメント

モデルの構成

モデルの推論時パラメータとロード時パラメータの両方をカスタマイズできます。推論パラメータはリクエストごとに設定できますが、ロードパラメータはモデルのロード時に設定されます。

推論パラメータ

推論時パラメータ(例:temperaturemaxTokenstopPなど)を設定します。

const prediction = model.respond(chat, {
  temperature: 0.6,
  maxTokens: 50,
});

設定可能なすべてのフィールドについては、LLMPredictionConfigInputを参照してください。

もう一つの有用な推論時設定パラメータはstructuredで、これによりJSONまたはzodスキーマを使用して出力の構造を厳密に強制できます。

ロードパラメータ

コンテキスト長、GPUオフロード比率などのロード時パラメータを設定します。

.model() でロードパラメータを設定する

.model() は、すでにロードされているモデルへのハンドルを取得するか、オンデマンド(JITローディング)で新しいモデルをロードします。

注意:モデルがすでにロードされている場合、設定は無視されます。

const model = await client.llm.model("qwen2.5-7b-instruct", {
  config: {
    contextLength: 8192,
    gpu: {
      ratio: 0.5,
    },
  },
});

設定可能なすべてのフィールドについては、LLMLoadModelConfigを参照してください。

.load() でロードパラメータを設定する

.load() メソッドは、新しいモデルインスタンスを作成し、指定された設定でロードします。

const model = await client.llm.load("qwen2.5-7b-instruct", {
  config: {
    contextLength: 8192,
    gpu: {
      ratio: 0.5,
    },
  },
});

設定可能なすべてのフィールドについては、LLMLoadModelConfigを参照してください。