Qwen2.5-VL-7B-Instruct

Qwen2.5-VL-7B-Instructは、画像、テキスト、ビデオを処理できるビジョン言語モデルであり、構造化された出力と視覚的ローカリゼーションをサポートします。チャート、グラフィック、レイアウトを分析でき、長いビデオシーケンスに対する時系列推論が可能です。

このモデルは、ドキュメント分析、イベント検出、および視覚コンテンツからの構造化データの抽出に使用することを目的としています。出力には、バウンディングボックス、ポイント、および構造化されたJSONデータが含まれます。

ソース

このモデルが使用する基盤となるモデルファイル

ベース

GGUF

このモデルをダウンロードすると、LM Studioはお使いのマシンに最適なソースを選択します（これは上書きできます）。

設定

このモデルに含まれるカスタム設定オプション

カスタム設定はありません。