ドキュメント

基本

モデルの構成

モデルの推論時間およびロード時間パラメータを設定するためのAPI

モデルの推論時間パラメータとロード時間パラメータの両方をカスタマイズできます。推論パラメータはリクエストごとに設定でき、ロードパラメータはモデルをロードするときに設定されます。

推論パラメータ

temperaturemaxTokenstopPなどの推論時間パラメータを設定します。

const prediction = model.respond(chat, {
  temperature: 0.6,
  maxTokens: 50,
});

設定可能なフィールドのすべてについては、LLMPredictionConfigInputを参照してください。

もう1つの便利な推論時間構成パラメータは、structuredです。これにより、JSONまたはzodスキーマを使用して出力の構造を厳密に強制できます。

ロードパラメータ

コンテキスト長、GPUオフロード率などのロード時間パラメータを設定します。

.model() でロードパラメータを設定する

.model() は、既にロードされているモデルへのハンドルを取得するか、オンデマンド(JITロード)で新しいモデルをロードします。

注意: モデルが既にロードされている場合、構成は無視されます。

const model = await client.llm.model("qwen2.5-7b-instruct", {
  config: {
    contextLength: 8192,
    gpu: {
      ratio: 0.5,
    },
  },
});

設定可能なフィールドのすべてについては、LLMLoadModelConfigを参照してください。

.load() でロードパラメータを設定する

.load() メソッドは新しいモデルインスタンスを作成し、指定された構成でロードします。

const model = await client.llm.load("qwen2.5-7b-instruct", {
  config: {
    contextLength: 8192,
    gpu: {
      ratio: 0.5,
    },
  },
});

設定可能なフィールドのすべてについては、LLMLoadModelConfigを参照してください。

このページのソースはGitHubで入手できます。