Qwen2.5-VL-7B-Instruct

视觉理解

模型信息

输入价格 0.5 - 2 元 每百万tokens
输出价格 0.5 - 5 元 每百万tokens
上下文长度 16,384 - 131,072 tokens
模态 文字, 图片, 视频 → 文字
视觉 Vision

指令跟随、数学、解题、代码整体提升,万物识别能力提升,支持多样格式直接精准定位视觉元素,支持对长视频文件(最长10分钟)进行理解和秒级别的事件时刻定位,能理解时间先后和快慢,基于解析和定位能力支持操控OS或Mobile的Agent,关键信息抽取能力和Json格式输出能力强,此版本为7B版本,计算量与性能相对平衡。

供应商对比

供应商 输入价格 输出价格 上下文 吞吐量 延迟
SophNet 0.5 元 0.5 元 131,072 86.50 t/s - 访问 →
阿里云百炼 2 元 5 元 131,072 86.74 t/s - 访问 →
百度智能云 2 元 5 元 16,384 81.01 t/s - 访问 →
无问芯穹 2 元 2 元 131,072 84.67 t/s - 访问 →
七牛云 2 元 5 元 131,072 81.85 t/s - 访问 →
并行智算云 2 元 5 元 131,072 - - 访问 →