27.2K ダウンロード

qwen/
qwen2.5-vl-7b
7B
qwen2vl

Qwen2.5ファミリーの7Bパラメータを持つビジョン言語モデル(VLM)

ビジョン入力

最終更新日5月17日
README

Qwen2.5-VL-7B-Instruct

Qwen2.5-VL-7B-Instructは、画像、テキスト、ビデオを処理できるビジョン言語モデルであり、構造化された出力と視覚的ローカリゼーションをサポートします。チャート、グラフィック、レイアウトを分析でき、長いビデオシーケンスに対する時系列推論が可能です。

このモデルは、ドキュメント分析、イベント検出、および視覚コンテンツからの構造化データの抽出に使用することを目的としています。出力には、バウンディングボックス、ポイント、および構造化されたJSONデータが含まれます。

ソース

このモデルが使用する基盤となるモデルファイル

このモデルをダウンロードすると、LM Studioはお使いのマシンに最適なソースを選択します(これは上書きできます)。

設定

このモデルに含まれるカスタム設定オプション

カスタム設定はありません。