ドキュメント

LLMでの予測

エージェントフロー

テキスト埋め込み

トークン化

モデル管理

モデル情報

LLMPredictionConfigInput

TODO: これは何か

フィールド

maxTokens(オプション) : number | false

予測するトークンの最大数。falseに設定した場合、モデルは必要なだけトークンを予測します。

この制限により予測が停止された場合、予測統計のstopReasonmaxPredictedTokensReachedに設定されます。

temperature(オプション) : number

予測モデルのtemperatureパラメータです。値が高いほど予測はランダムになり、低いほど予測は決定的になります。値は0から1の間である必要があります。

stopStrings(オプション) : Array<string>

文字列の配列です。モデルがこれらの文字列のいずれかを生成した場合、予測は停止します。

この制限により予測が停止された場合、予測統計のstopReasonstopStringFoundに設定されます。

toolCallStopStrings(オプション) : Array<string>

文字列の配列です。モデルがこれらの文字列のいずれかを生成した場合、stopReasontoolCallsとなって予測が停止します。

contextOverflowPolicy(オプション) : LLMContextOverflowPolicy

生成されたトークンの長さがコンテキストウィンドウサイズを超えた場合の挙動です。許容される値は以下のとおりです。

  • stopAtLimit: 生成されたトークンの長さがコンテキストウィンドウサイズを超えたときに予測を停止します。この制限により生成が停止された場合、予測統計のstopReasoncontextLengthReachedに設定されます。
  • truncateMiddle: システムプロンプトと最初のユーザーメッセージを保持し、中間を切り捨てます。
  • rollingWindow: ローリングウィンドウを維持し、過去のメッセージを切り捨てます。

structured(オプション) : ZodType<TStructuredOutputType> | LLMStructuredPredictionSetting

Zodを使用して定義された特定のスキーマに従う構造化されたJSONデータを出力するようにモデルを設定します。

Zodスキーマを提供すると、モデルは自由形式のテキストではなく、そのスキーマに準拠したJSONを生成するように指示されます。

これは、モデルの応答から特定のデータポイントを抽出する場合や、アプリケーションで直接使用できる形式で出力が必要な場合に特に役立ちます。

topKSampling(オプション) : number

次に最も可能性の高いK個のトークンに考慮を限定することで、トークンサンプリングの多様性を制御します。

例えば、40に設定すると、最も確率の高い40個のトークンのみが次のトークン選択の対象となります。低い値(例:20)では出力がより集中的で保守的になり、高い値(例:100)ではより創造的で多様な出力が可能になります。

一般的な値は20から100の範囲です。

repeatPenalty(オプション) : number | false

繰り返されるトークンにペナルティを適用し、モデルが反復パターンに陥るのを防ぎます。

値1.0はペナルティなしを意味します。1.0より大きい値はペナルティを増加させます。例えば、1.2は以前使用されたトークンの確率を20%減少させます。これは、モデルがフレーズを繰り返したり、ループにはまったりするのを防ぐのに特に役立ちます。

ペナルティを完全に無効にするにはfalseに設定します。

minPSampling(オプション) : number | false

トークンが生成対象として考慮されるために満たすべき最小確率しきい値を設定します。

例えば、0.05に設定した場合、確率が5%未満のトークンは考慮対象から除外されます。これにより、可能性の低い、または無関係なトークンを除外し、出力品質を向上させるのに役立ちます。

値は0から1の間である必要があります。このフィルタを無効にするにはfalseに設定します。

topPSampling(オプション) : number | false

累積確率が指定されたしきい値に達するトークンのみを考慮することで、ニュークリアスサンプリングを実装します。

例えば、0.9に設定すると、モデルは、確率質量の合計で90%に達する最も可能性の高いトークンのみを考慮します。これにより、トークンの確率分布に基づいて考慮されるトークン数を動的に調整することで、多様性と品質のバランスを取るのに役立ちます。

値は0から1の間である必要があります。ニュークリアスサンプリングを無効にするにはfalseに設定します。

xtcProbability(オプション) : number | false

生成中にXTC(上位選択肢除外)サンプリング手法がどれくらいの頻度で適用されるかを制御します。

XTCサンプリングは、一般的なトークンを時々フィルタリングすることで、創造性を高め、陳腐な表現を減らすことができます。例えば、0.3に設定した場合、各トークンを生成する際にXTCサンプリングが適用される確率は30%です。

値は0から1の間である必要があります。XTCを完全に無効にするにはfalseに設定します。

xtcThreshold(オプション) : number | false

XTC(上位選択肢除外)サンプリング手法の低確率しきい値を定義します。

XTCサンプリングが有効化された場合(xtcProbabilityに基づく)、アルゴリズムはこのしきい値と0.5の間の確率を持つトークンを特定し、最も確率の低いものを除いてそれらのトークンをすべて削除します。これにより、より多様で予期しないトークンを生成に導入するのに役立ちます。

xtcProbabilityが有効になっている場合にのみ有効です。

cpuThreads(オプション) : number

モデル推論に割り当てるCPUスレッド数を指定します。

高い値はマルチコアシステムでのパフォーマンスを向上させることができますが、他のプロセスと競合する可能性があります。例えば、8コアシステムでは、4〜6の値は他のタスクにリソースを残しながら良好なパフォーマンスを提供できるかもしれません。

指定しない場合、システムは利用可能なハードウェアに基づいてデフォルト値を使用します。

draftModel(オプション) : string

投機的デコーディングに使用するドラフトモデルです。投機的デコーディングは、メインモデルとより小さなドラフトモデルを組み合わせることで、生成速度を大幅に(大規模モデルでは最大3倍)向上させることができる技術です。

詳細についてはこちらを参照してください: https://lmstudio.dokyumento.jp/docs/advanced/speculative-decoding

ドラフトモデルを自分でロードする必要はありません。ここでそのモデルキーを指定するだけで十分です。