5.9K ダウンロード数

qwen/
qwen2.5-vl-7b
7B
qwen2vl

Qwen2.5ファミリーの7Bビジョン言語モデル(VLM)

ビジョン入力

最終更新日   27日前

最低5GB必要
README

Qwen2.5-VL-7B-Instruct

Qwen2.5-VL-7B-Instructは、画像、テキスト、ビデオを処理し、構造化された出力と視覚的な位置特定をサポートするビジョン言語モデルです。チャート、グラフィック、レイアウトを分析でき、長時間のビデオシーケンスの時間的推論も可能です。

このモデルは、ドキュメント分析、イベント検出、視覚コンテンツからの構造化データ抽出に使用されることを想定しています。出力には、バウンディングボックス、点、構造化されたJSONデータが含まれます。

ソース

このモデルが使用する基盤となるモデルファイル

このモデルをダウンロードする際、LM Studioはお客様のコンピューターに最適なソースを選択します(この設定は上書きできます)。

設定

このモデルに含まれるカスタム設定オプション

カスタム設定はありません。