ドキュメント

APIリファレンス

LLMLoadModelConfig

LLMLoadModelConfig の API リファレンス

パラメータ

gpu (オプション) : GPUSetting

GPU への作業の分散方法。詳細については {@link GPUSetting} を参照してください。

contextLength (オプション) : number

トークン数でのコンテキスト長サイズ。これにはプロンプトと応答の両方が含まれます。コンテキスト長を超えると、{@link LLMPredictionConfigBase#contextOverflowPolicy} で設定された値が動作を決定するために使用されます。

詳細については {@link LLMContextOverflowPolicy} を参照してください。

ropeFrequencyBase (オプション) : number

ロータリー位置埋め込み (RoPE) のカスタムベース周波数。

この高度なパラメータは、モデルの表現に位置情報を埋め込む方法を調整します。この値を大きくすると、位置依存情報処理方法を変更することで、長いコンテキスト長でのパフォーマンスが向上する可能性があります。

ropeFrequencyScale (オプション) : number

RoPE (ロータリー位置エンコーディング) 周波数のスケーリング係数。

この係数は、位置情報のエンコード方法を変更することで、効果的なコンテキストウィンドウをスケーリングします。値が大きいほど、位置エンコーディングをより細かくすることで、モデルがより長いコンテキストを処理できるようになり、モデルを元のトレーニングコンテキスト長を超えて拡張する場合に特に役立ちます。

evalBatchSize (オプション) : number

評価中に 1 つのバッチで一緒に処理する入力トークンの数。

この値を大きくすると、並列化を活用することで処理速度とスループットが向上しますが、より多くのメモリが必要になります。最適なバッチサイズの発見には、パフォーマンスの向上と利用可能なハードウェアリソースのバランスを取ることがしばしば必要になります。

flashAttention (オプション) : boolean

最適化されたアテンション計算のために Flash Attention を有効にします。

Flash Attention は、メモリ使用量を削減し、アテンションメカニズムの計算方法を最適化することで生成を高速化する効率的な実装です。これは、互換性のあるハードウェアで、特に長いシーケンスでパフォーマンスを大幅に向上させることができます。

keepModelInMemory (オプション) : boolean

有効にすると、モデルがシステムメモリからスワップアウトされるのを防ぎます。

このオプションは、モデルの一部が GPU にオフロードされている場合でも、モデルのためにシステムメモリを予約し、モデルを使用する必要があるときに高速なアクセス時間を保証します。特にインタラクティブなアプリケーションのパフォーマンスを向上させますが、全体的な RAM 要件を増加させます。

seed (オプション) : number

再現可能な出力を保証するための、モデル初期化のランダムシード値。

特定のシードを設定すると、モデル内のランダム操作 (サンプリングなど) が異なる実行でも同じ結果を生成することが保証され、テストおよび開発シナリオでの再現性が重要になります。

useFp16ForKVCache (オプション) : boolean

有効にすると、キー・バリューキャッシュが半精度 (FP16) フォーマットで保存されます。

このオプションは、32 ビットではなく 16 ビット浮動小数点数を使用してアテンションキャッシュを保存することで、推論中のメモリ使用量を大幅に削減します。これにより数値精度がわずかに低下する可能性がありますが、ほとんどのアプリケーションでは出力品質への影響は一般的に最小限です。

tryMmap (オプション) : boolean

モデルのロード時にメモリマップ (mmap) ファイルアクセスを試みます。

メモリマッピングは、モデルファイルをディスクからメモリに直接マッピングすることで初期ロード時間を改善し、オペレーティングシステムがページングを処理できるようにします。これは特に高速な起動に役立ちますが、モデルが利用可能なシステム RAM より大きい場合、頻繁なディスクアクセスが発生し、パフォーマンスが低下する可能性があります。

numExperts (オプション) : number

Mixture of Experts (MoE) アーキテクチャを持つモデルに使用するエキスパートの数を指定します。

MoE モデルには、タスクのさまざまな側面に特化した複数の「エキスパート」ネットワークが含まれています。このパラメータは、推論中にこれらのエキスパートのうちいくつがアクティブになるかを制御し、パフォーマンスと出力品質の両方に影響します。MoE アーキテクチャで設計されたモデルにのみ適用されます。

llamaKCacheQuantizationType (オプション) : LLMLlamaCacheQuantizationType | false

Llama モデルのキーキャッシュの量子化タイプ。

このオプションは、アテンションメカニズムのキャッシュのキーコンポーネントを保存するために使用される精度レベルを決定します。低い精度値 (例: 4 ビットまたは 8 ビット量子化) は、推論中のメモリ使用量を大幅に削減しますが、出力品質にわずかに影響する可能性があります。効果はモデルによって異なり、一部のモデルは他のモデルよりも量子化に対してより堅牢です。

量子化を無効にし、フル精度を使用するには false に設定します。

llamaVCacheQuantizationType (オプション) : LLMLlamaCacheQuantizationType | false

Llama モデルの値キャッシュの量子化タイプ。

キーキャッシュの量子化と同様に、このオプションはアテンションメカニズムのキャッシュの値コンポーネントに使用される精度を制御します。精度を下げることでメモリは節約されますが、生成品質に影響を与える可能性があります。このオプションは、正常に機能するために Flash Attention が有効になっている必要があります。

特定の値キャッシュの量子化に対するモデルの応答は異なるため、特定のユースケースに最適な設定を見つけるには実験が必要になる場合があります。量子化を無効にするには false に設定します。

このページのソースは GitHub で入手できます。