ドキュメント

始めるにあたって

エージェントフロー

テキスト埋め込み

トークン化

モデルの管理

モデル情報

画像入力

必須Python SDKバージョン: 1.1.0

VLM(Vision-Language Model)として知られる一部のモデルは、画像をインプットとして受け入れることができます。画像をモデルに渡すには、.respond() メソッドを使用します。

前提条件: VLM(Vision-Language Model)を入手する

まだVLMをお持ちでない場合は、以下のコマンドを使用してqwen2-vl-2b-instructのようなモデルをダウンロードできます

lms get qwen2-vl-2b-instruct

1. モデルをインスタンス化する

LM Studioに接続し、使用したいVLM(Vision-Language Model)のハンドルを取得します。

import lmstudio as lms
model = lms.llm("qwen2-vl-2b-instruct")

2. 画像を準備する

prepare_image() 関数または files ネームスペースメソッドを使用して、後でモデルに渡すことができる画像のハンドルを取得します。

import lmstudio as lms
image_path = "/path/to/image.jpg" # Replace with the path to your image
image_handle = lms.prepare_image(image_path)

画像の生データのみをお持ちの場合は、最初にディスクに書き込むことなく、バイトオブジェクトとして生データを直接供給できます。この機能のため、バイナリファイルシステムパスはサポートされていません(ファイルシステムパスとしてではなく、不正な画像データとして処理されるため)。

バイナリIOオブジェクトもローカルファイル入力として受け入れられます。

LM StudioサーバーはJPEG、PNG、WebPの画像フォーマットをサポートしています。

3. 画像を.respond()でモデルに渡す

.respond() メソッドで画像をモデルに渡すことにより、予測を生成します。

import lmstudio as lms
image_path = "/path/to/image.jpg" # Replace with the path to your image
image_handle = lms.prepare_image(image_path)
model = lms.llm("qwen2-vl-2b-instruct")
chat = lms.Chat()
chat.add_user_message("Describe this image please", images=[image_handle])
prediction = model.respond(chat)