はじめに

プロジェクトセットアップ

基本

チャット

画像入力

構造化レスポンス

Speculative Decoding

予測のキャンセル

テキスト補完

設定パラメータ

チャットの操作

エージェントフロー

.act() コール

ツール定義

インテグレーション

プラグインの紹介

npm 依存関係の使用

ツールプロバイダー

プロンプトプリプロセッサ

ジェネレーター

カスタム設定

プラグインの発行

テキスト埋め込み

埋め込みベクトルの生成

トークン化

テキストのトークン化

モデルの管理

ローカルモデルの一覧

ロード済みモデルの一覧

モデルのロードとアクセス

APIリファレンス

LLMLoadModelConfig

LLMPredictionConfigInput

モデル情報

コンテキスト長を取得

モデル情報を取得

はじめに

プロジェクトセットアップ

基本

チャット

画像入力

構造化レスポンス

Speculative Decoding

予測のキャンセル

テキスト補完

設定パラメータ

チャットの操作

エージェントフロー

.act() コール

ツール定義

インテグレーション

プラグインの紹介

npm 依存関係の使用

ツールプロバイダー

プロンプトプリプロセッサ

ジェネレーター

カスタム設定

プラグインの発行

テキスト埋め込み

埋め込みベクトルの生成

トークン化

テキストのトークン化

モデルの管理

ローカルモデルの一覧

ロード済みモデルの一覧

モデルのロードとアクセス

APIリファレンス

LLMLoadModelConfig

LLMPredictionConfigInput

モデル情報

コンテキスト長を取得

モデル情報を取得

基本
モデルの構成

モデルの推論時間およびロード時間パラメータを設定するためのAPI

モデルの推論時間パラメータとロード時間パラメータの両方をカスタマイズできます。推論パラメータはリクエストごとに設定でき、ロードパラメータはモデルをロードするときに設定されます。

推論パラメータ

temperature、maxTokens、topPなどの推論時間パラメータを設定します。

const prediction = model.respond(chat, {
  temperature: 0.6,
  maxTokens: 50,
});

設定可能なフィールドのすべてについては、LLMPredictionConfigInputを参照してください。

もう1つの便利な推論時間構成パラメータは、structuredです。これにより、JSONまたはzodスキーマを使用して出力の構造を厳密に強制できます。

ロードパラメータ

コンテキスト長、GPUオフロード率などのロード時間パラメータを設定します。

`.model()` でロードパラメータを設定する

.model() は、既にロードされているモデルへのハンドルを取得するか、オンデマンド（JITロード）で新しいモデルをロードします。

注意: モデルが既にロードされている場合、構成は無視されます。

const model = await client.llm.model("qwen2.5-7b-instruct", {
  config: {
    contextLength: 8192,
    gpu: {
      ratio: 0.5,
    },
  },
});

設定可能なフィールドのすべてについては、LLMLoadModelConfigを参照してください。

`.load()` でロードパラメータを設定する

.load() メソッドは新しいモデルインスタンスを作成し、指定された構成でロードします。

const model = await client.llm.load("qwen2.5-7b-instruct", {
  config: {
    contextLength: 8192,
    gpu: {
      ratio: 0.5,
    },
  },
});

設定可能なフィールドのすべてについては、LLMLoadModelConfigを参照してください。

このページのソースはGitHubで入手できます。

このページについて

推論パラメータ

ロードパラメータ

.model() でロードパラメータを設定する

.load() でロードパラメータを設定する

ページソース GitHubで編集

基本モデルの構成

推論パラメータ

ロードパラメータ

.model() でロードパラメータを設定する

.load() でロードパラメータを設定する

基本
モデルの構成

`.model()` でロードパラメータを設定する

`.load()` でロードパラメータを設定する