ドキュメント

APIリファレンス

LLMPredictionConfigInput

フィールド

maxTokens (オプション) : number | false

最大で予測するトークン数。falseに設定すると、モデルは望むだけトークンを予測します。

この制限により予測が停止した場合、予測統計の stopReasonmaxPredictedTokensReached に設定されます。

temperature (オプション) : number

予測モデルの温度パラメータ。値が高いほど予測はランダムになり、値が低いほど予測は決定的になります。値は0から1の間である必要があります。

stopStrings (オプション) : Array<string>

文字列の配列。モデルがこれらの文字列のいずれかを生成した場合、予測は停止します。

この制限により予測が停止した場合、予測統計の stopReasonstopStringFound に設定されます。

toolCallStopStrings (オプション) : Array<string>

文字列の配列。モデルがこれらの文字列のいずれかを生成した場合、予測は stopReason toolCalls で停止します。

contextOverflowPolicy (オプション) : LLMContextOverflowPolicy

生成されたトークン長がコンテキストウィンドウサイズを超える場合の動作。許可される値は以下の通りです。

  • stopAtLimit: 生成されたトークン長がコンテキストウィンドウサイズを超えた場合、予測を停止します。この制限により生成が停止した場合、予測統計の stopReasoncontextLengthReached に設定されます。
  • truncateMiddle: システムプロンプトと最初のユーザーメッセージを保持し、中間を切り抜きます。
  • rollingWindow: ローリングウィンドウを維持し、過去のメッセージを切り抜きます。

structured (オプション) : ZodType<TStructuredOutputType> | LLMStructuredPredictionSetting

Zodを使用して定義された特定のスキーマに従う構造化されたJSONデータを出力するようにモデルを設定します。

Zodスキーマを提供すると、モデルは自由形式のテキストではなく、そのスキーマに準拠したJSONを生成するように指示されます。

これは、モデルの応答から特定のデータポイントを抽出する場合や、アプリケーションで直接使用できる形式で出力を取得したい場合に特に役立ちます。

topKSampling (オプション) : number

最も可能性の高いK個の次のトークンのみを考慮することにより、トークンサンプリングの多様性を制御します。

たとえば、40に設定すると、次のトークン選択のために最も確率の高い40個のトークンのみが考慮されます。値が低い(例: 20)と、出力はより集中的で保守的になり、値が高い(例: 100)と、より創造的で多様な出力が可能になります。

通常の範囲は20から100です。

repeatPenalty (オプション) : number | false

繰り返しパターンにモデルが陥るのを防ぐために、繰り返しトークンにペナルティを適用します。

1.0の値はペナルティなしを意味します。1.0より大きい値はペナルティを増加させます。たとえば、1.2は以前に使用されたトークンの確率を20%削減します。これは、モデルがフレーズを繰り返したりループに陥ったりするのを防ぐのに特に役立ちます。

ペナルティを完全に無効にするにはfalseに設定します。

minPSampling (オプション) : number | false

生成のために考慮されるトークンが満たす必要がある最小確率しきい値を設定します。

たとえば、0.05に設定すると、確率が5%未満のトークンはすべて除外されます。これにより、可能性の低い、または関連性のないトークンをフィルタリングし、出力品質を向上させることができます。

値は0から1の間である必要があります。このフィルターを無効にするにはfalseに設定します。

topPSampling (オプション) : number | false

累積確率が指定されたしきい値に達する最も可能性の高いトークンのみを考慮することにより、ニュークリアスサンプリングを実装します。

たとえば、0.9に設定すると、モデルは確率の合計が90%になる最も可能性の高いトークンのみを考慮します。これは、トークンの確率分布に基づいて考慮されるトークンの数を動的に調整することにより、多様性と品質のバランスを取るのに役立ちます。

値は0から1の間である必要があります。ニュークリアスサンプリングを無効にするにはfalseに設定します。

xtcProbability (オプション) : number | false

XTC(Exclude Top Choices)サンプリング技術が生成中に適用される頻度を制御します。

XTCサンプリングは、一般的なトークンを時折フィルタリングすることにより、創造性を高め、陳腐な表現を減らすことができます。たとえば、0.3に設定すると、各トークンを生成する際にXTCサンプリングが適用される確率は30%になります。

値は0から1の間である必要があります。XTCを完全に無効にするにはfalseに設定します。

xtcThreshold (オプション) : number | false

XTC(Exclude Top Choices)サンプリング技術の確率の下限を定義します。

XTCサンプリングが有効(xtcProbabilityに基づく)になると、アルゴリズムはこのしきい値と0.5の間の確率を持つトークンを特定し、それらのトークンをすべて(最も確率の低いものを除く)削除します。これにより、より多様で予期しないトークンが生成に導入されます。

xtcProbabilityが有効な場合にのみ有効です。

cpuThreads (オプション) : number

モデル推論に割り当てるCPUスレッド数を指定します。

値が高いほどマルチコアシステムでのパフォーマンスが向上する可能性がありますが、他のプロセスと競合する場合があります。たとえば、8コアシステムでは、4〜6の値が他のタスクのためのリソースを残しながら良好なパフォーマンスを提供する可能性があります。

指定しない場合、システムは利用可能なハードウェアに基づいたデフォルト値を使用します。

draftModel (オプション) : string

投機的デコーディングに使用されるドラフトモデル。投機的デコーディングは、メインモデルと小さなドラフトモデルをペアにすることで、生成速度を大幅に(大きなモデルでは最大3倍)向上させることができる技術です。

詳細についてはこちらをご覧ください: https://lmstudio.dokyumento.jp/docs/advanced/speculative-decoding

ドラフトモデルを自分でロードする必要はありません。モデルキーを指定するだけで十分です。

このページのソースは GitHub で利用可能です。