LM Studio 0.3.9
未使用のAPIモデルを一定時間後に自動アンロードするオプション
LM Studio 0.3.9 には、新しい**アイドルTTL**機能、Hugging Faceリポジトリ内のネストされたフォルダーのサポート、およびチャット補完応答でreasoning_content
を別のフィールドで受け取る実験的APIが含まれています。
0.3.9 の以前のビルドには、DeepSeek R1チャット補完応答のストリーミングに関するバグがありました。この問題を修正するには、最新のビルド(5)に更新してください。
ユースケース: LM Studioによって提供されるLLMと対話するために、Zed、Cline、またはContinue.devのようなアプリを使用していると想像してください。これらのアプリは、初めてモデルを使用する際にJITを活用してオンデマンドでモデルをロードします。
問題: モデルをアクティブに使用していない場合、メモリにロードされたままにしたくないことがあります。
解決策: APIリクエストによってロードされたモデルにTTLを設定します。アイドルタイマーは、モデルがリクエストを受信するたびにリセットされるため、使用中にモデルが消えることはありません。モデルは、何の作業もしていない場合にアイドル状態と見なされます。アイドルTTLが期限切れになると、モデルはメモリから自動的にアンロードされます。
TTLはリクエストペイロードで秒単位で設定するか、コマンドラインで使用する場合はlms load --ttl <seconds>
を使用できます。
詳細については、ドキュメント記事を参照してください: TTLと自動アンロード。
reasoning_content
の分離DeepSeek R1の場合、推論内容を別のフィールドで取得
DeepSeek R1モデルは、<think>
</think>
タグ内でコンテンツを生成します。このコンテンツはモデルの「推論」プロセスです。チャット補完応答では、DeepSeekのAPIのパターンに従って、このコンテンツをreasoning_content
という別のフィールドで受け取ることができるようになりました。
これはストリーミングおよび非ストリーミングの両方の補完で機能します。アプリ設定 > 開発者でこれをオンにできます。この機能は現在実験的です。
注: DeepSeekのドキュメントによると、次のリクエストで推論内容をモデルに返すべきではありません。
LM Studioは、llama.cpp
エンジンの複数のバリアント(CPUのみ、CUDA、Vulkan、ROCm、Metal)と、Apple MLXエンジンをサポートしています。これらのエンジンは、特に新しいモデルがリリースされる際に頻繁に更新されます。
複数のコンポーネントを手動で更新する手間を減らすため、ランタイムの自動更新を導入しました。これはデフォルトで有効になっていますが、アプリ設定でオフにできます。
ランタイムが更新されると、リリースノートを示す通知が表示されます。ランタイムタブでも自分で管理できます: Windows/LinuxではCtrl + Shift + R
、macOSではCmd + Shift + R
。
LMランタイムは最新版に自動更新されます。設定でこれをオフにできます
長らく要望されていた機能です: Hugging Faceリポジトリ内のネストされたフォルダーからモデルをダウンロードできるようになりました。お気に入りのモデルパブリッシャーがモデルをサブフォルダーで整理している場合、LM Studioで直接ダウンロードできます。
これにより、https://huggingface.co/unsloth/DeepSeek-R1-GGUFのようなモデルを簡単にダウンロードできます。lms get <hugging face url>
でも機能します。
# Warning: this is a very large model lms get https://huggingface.co/unsloth/DeepSeek-R1-GGUF
ビルド6
ビルド5
reasoning_content
設定が尊重されないAPIバグを修正ビルド4
reasoning_content
を別のフィールドで送信<think>
</think>
タグ内でコンテンツを生成するモデル(DeepSeek R1など)で機能しますビルド3
ビルド2
ビルド1
ttl
フィールド)lms load --ttl <seconds>