ドキュメンテーション

LLMによる予測

エージェントフロー

テキスト埋め込み

トークン化

モデルの管理

モデル情報

LLMLoadModelConfig

パラメータ

gpu (オプション) : GPUSetting

GPUに作業を分散する方法。詳細については{@link GPUSetting}を参照してください。

contextLength (オプション) : number

トークン数におけるコンテキスト長のサイズ。これにはプロンプトと応答の両方が含まれます。コンテキスト長を超過した場合、動作を決定するために{@link LLMPredictionConfigBase#contextOverflowPolicy}で設定された値が使用されます。

詳細については{@link LLMContextOverflowPolicy}を参照してください。

ropeFrequencyBase (オプション) : number

ロータリー位置埋め込み (RoPE) 用のカスタムベース周波数。

この高度なパラメータは、モデルの表現に位置情報がどのように埋め込まれるかを調整します。この値を増やすことで、モデルが位置依存情報を処理する方法を変更し、高いコンテキスト長でのパフォーマンスを向上させることができます。

ropeFrequencyScale (オプション) : number

RoPE (ロータリー位置エンコーディング) 周波数のスケーリング係数。

この係数は、位置情報がどのようにエンコードされるかを変更することで、実効コンテキストウィンドウをスケーリングします。値が高いほど、位置エンコーディングをより細かくすることでモデルがより長いコンテキストを処理できるようになり、特にモデルを元のトレーニングコンテキスト長を超えて拡張する場合に役立ちます。

evalBatchSize (オプション) : number

評価中に単一のバッチでまとめて処理する入力トークンの数。

この値を増やすと、通常、並列処理を活用することで処理速度とスループットが向上しますが、より多くのメモリを必要とします。最適なバッチサイズを見つけることは、パフォーマンスの向上と利用可能なハードウェアリソースとのバランスを取ることが多いです。

flashAttention (オプション) : boolean

最適化されたアテンション計算のためにFlash Attentionを有効にします。

Flash Attentionは、アテンションメカニズムの計算方法を最適化することで、メモリ使用量を削減し、生成を高速化する効率的な実装です。これは、互換性のあるハードウェア、特に長いシーケンスにおいて、パフォーマンスを大幅に向上させることができます。

keepModelInMemory (オプション) : boolean

有効にすると、モデルがシステムメモリからスワップアウトされるのを防ぎます。

このオプションは、モデルの一部がGPUにオフロードされている場合でも、モデルのためにシステムメモリを予約し、モデルを使用する必要がある際のアクセス時間を短縮します。特にインタラクティブなアプリケーションのパフォーマンスを向上させますが、全体のRAM要件が増加します。

seed (オプション) : number

再現可能な出力を保証するためのモデル初期化用の乱数シード値。

特定のシードを設定すると、モデル内のランダムな操作(サンプリングなど)が異なる実行でも同じ結果を生成することが保証され、テストおよび開発シナリオでの再現性にとって重要です。

useFp16ForKVCache (オプション) : boolean

有効にすると、キーバリューキャッシュを半精度 (FP16) 形式で保存します。

このオプションは、アテンションキャッシュに32ビットではなく16ビットの浮動小数点数を使用することで、推論時のメモリ使用量を大幅に削減します。これにより数値精度がわずかに低下する可能性がありますが、ほとんどのアプリケーションでは出力品質への影響は通常最小限です。

tryMmap (オプション) : boolean

モデルのロード時にメモリマップド (mmap) ファイルアクセスを使用しようとします。

メモリマッピングは、モデルファイルをディスクからメモリに直接マッピングすることで初期ロード時間を改善し、オペレーティングシステムがページングを処理できるようにします。これは高速起動に特に有益ですが、モデルが利用可能なシステムRAMより大きい場合、頻繁なディスクアクセスが発生し、パフォーマンスが低下する可能性があります。

numExperts (オプション) : number

Mixture of Experts (MoE) アーキテクチャを持つモデルで使用するエキスパートの数を指定します。

MoEモデルには、タスクの異なる側面に特化した複数の「エキスパート」ネットワークが含まれています。このパラメータは、推論中にアクティブになるこれらのエキスパートの数を制御し、パフォーマンスと出力品質の両方に影響を与えます。MoEアーキテクチャで設計されたモデルにのみ適用されます。

llamaKCacheQuantizationType (オプション) : LLMLlamaCacheQuantizationType | false

Llamaモデルのキーキャッシュの量子化タイプ。

このオプションは、アテンションメカニズムのキャッシュのキーコンポーネントを保存するために使用される精度レベルを決定します。低精度値(例:4ビットまたは8ビット量子化)は、推論時のメモリ使用量を大幅に削減しますが、出力品質にわずかな影響を与える可能性があります。その効果はモデルによって異なり、一部のモデルは他のモデルよりも量子化に頑健です。

量子化を無効にし、完全な精度を使用するにはfalseに設定します。

llamaVCacheQuantizationType (オプション) : LLMLlamaCacheQuantizationType | false

Llamaモデルのバリューキャッシュの量子化タイプ。

キーキャッシュの量子化と同様に、このオプションはアテンションメカニズムのキャッシュのバリューコンポーネントに使用される精度を制御します。精度を低下させるとメモリは節約されますが、生成品質に影響を与える可能性があります。このオプションは、正しく機能するためにFlash Attentionが有効になっている必要があります。

モデルによってバリューキャッシュの量子化に対する反応は異なるため、特定のユースケースに最適な設定を見つけるには実験が必要となる場合があります。量子化を無効にするにはfalseに設定してください。