ドキュメント
LLMをローカルで実行する
プリセット
API
ユーザーインターフェース
高度な設定
LLMをローカルで実行する
プリセット
API
ユーザーインターフェース
高度な設定
API変更履歴
OpenAIライクなREST APIがtool_choice
パラメータをサポートするようになりました。
{ "tool_choice": "auto" // or "none", "required" }
"tool_choice": "none"
— モデルはツールを呼び出しません"tool_choice": "auto"
— モデルが決定します"tool_choice": "required"
— モデルはツールを呼び出す必要があります(llama.cppのみ)チャンク化されたレスポンスは、適切な場合に"finish_reason": "tool_calls"
を設定するようになりました。
RESTful APIとSDKは、リクエストでプリセットを指定するのをサポートします。
(例が必要)
APIリクエストで"draft_model"
を使用して投機的デコーディングを有効にします。
{ "model": "deepseek-r1-distill-qwen-7b", "draft_model": "deepseek-r1-distill-qwen-0.5b", "messages": [ ... ] }
レスポンスには、投機的デコーディングのためのstats
オブジェクトが含まれるようになりました。
"stats": { "tokens_per_second": ..., "draft_model": "...", "total_draft_tokens_count": ..., "accepted_draft_tokens_count": ..., "rejected_draft_tokens_count": ..., "ignored_draft_tokens_count": ... }
APIリクエストでロードされたモデルのTTL(秒単位)を設定します(ドキュメント記事:アイドルTTLと自動削除)
curl http://localhost:1234/api/v0/chat/completions \ -H "Content-Type: application/json" \ -d '{ "model": "deepseek-r1-distill-qwen-7b", "messages": [ ... ] + "ttl": 300, }'
lms
を使用
lms load --ttl <seconds>
reasoning_content
の分離DeepSeek R1モデルの場合、推論コンテンツを別のフィールドで取得できます。詳細はこちらをご覧ください。
アプリ設定 > 開発者 でこれを有効にしてください。
OpenAIライクなAPIを介して、ツール使用と関数呼び出しをサポートする任意のLLMを使用できます。
ドキュメント: ツール使用と関数呼び出し。
lms get
の紹介: ターミナルからモデルをダウンロードキーワードを使用してターミナルから直接モデルをダウンロードできるようになりました。
lms get deepseek-r1
または完全なHugging Face URLを使用して
lms get <hugging face url>
MLXモデルのみをフィルタリングするには、コマンドに--mlx
を追加します。
lms get deepseek-r1 --mlx
このページの内容
ツール使用APIサポートの改善
[API/SDK] プリセット対応
投機的デコーディングAPI
アイドルTTLと自動削除
チャット完了応答でのreasoning_contentの分離
ツールと関数呼び出しAPI
lms get の紹介: ターミナルからモデルをダウンロード