Qwen2.5-VL-7B-Instruct
Qwen2.5-VL-7B-Instructは、画像、テキスト、ビデオを処理できるビジョン言語モデルであり、構造化された出力と視覚的ローカリゼーションをサポートします。チャート、グラフィック、レイアウトを分析でき、長いビデオシーケンスに対する時系列推論が可能です。
このモデルは、ドキュメント分析、イベント検出、および視覚コンテンツからの構造化データの抽出に使用することを目的としています。出力には、バウンディングボックス、ポイント、および構造化されたJSONデータが含まれます。