プロフィール
LM Studio Hubにログイン
ホーム
モデルカタログ
ドキュメント
ブログ
ダウンロード
採用情報
ビジネス向けLM Studio
プライバシーポリシー
利用規約
1
5.9K ダウンロード数
Qwen2.5ファミリーの7Bビジョン言語モデル(VLM)
ビジョン入力
最終更新日 27日前
Qwen2.5-VL-7B-Instructは、画像、テキスト、ビデオを処理し、構造化された出力と視覚的な位置特定をサポートするビジョン言語モデルです。チャート、グラフィック、レイアウトを分析でき、長時間のビデオシーケンスの時間的推論も可能です。
このモデルは、ドキュメント分析、イベント検出、視覚コンテンツからの構造化データ抽出に使用されることを想定しています。出力には、バウンディングボックス、点、構造化されたJSONデータが含まれます。
このモデルが使用する基盤となるモデルファイル
ベース
GGUF
このモデルをダウンロードする際、LM Studioはお客様のコンピューターに最適なソースを選択します(この設定は上書きできます)。
このモデルに含まれるカスタム設定オプション