ドキュメント
画像入力
必須Python SDKバージョン: 1.1.0
VLM(Vision-Language Model)として知られる一部のモデルは、画像をインプットとして受け入れることができます。画像をモデルに渡すには、.respond()
メソッドを使用します。
まだVLMをお持ちでない場合は、以下のコマンドを使用してqwen2-vl-2b-instruct
のようなモデルをダウンロードできます
lms get qwen2-vl-2b-instruct
LM Studioに接続し、使用したいVLM(Vision-Language Model)のハンドルを取得します。
import lmstudio as lms
model = lms.llm("qwen2-vl-2b-instruct")
prepare_image()
関数または files
ネームスペースメソッドを使用して、後でモデルに渡すことができる画像のハンドルを取得します。
import lmstudio as lms
image_path = "/path/to/image.jpg" # Replace with the path to your image
image_handle = lms.prepare_image(image_path)
画像の生データのみをお持ちの場合は、最初にディスクに書き込むことなく、バイトオブジェクトとして生データを直接供給できます。この機能のため、バイナリファイルシステムパスはサポートされていません(ファイルシステムパスとしてではなく、不正な画像データとして処理されるため)。
バイナリIOオブジェクトもローカルファイル入力として受け入れられます。
LM StudioサーバーはJPEG、PNG、WebPの画像フォーマットをサポートしています。
.respond()
でモデルに渡す.respond()
メソッドで画像をモデルに渡すことにより、予測を生成します。
import lmstudio as lms
image_path = "/path/to/image.jpg" # Replace with the path to your image
image_handle = lms.prepare_image(image_path)
model = lms.llm("qwen2-vl-2b-instruct")
chat = lms.Chat()
chat.add_user_message("Describe this image please", images=[image_handle])
prediction = model.respond(chat)
このページの内容
前提条件: VLM(Vision-Language Model)を入手する
1. モデルをインスタンス化する
2. 画像を準備する
3. 画像を.respond()でモデルに渡す