Qwen2.5-VL-72B-Instruct

视觉理解

模型信息

输入价格 4.13 - 16 元 每百万tokens
输出价格 4.13 - 48 元 每百万tokens
上下文长度 8,192 - 131,072 tokens
模态 文字, 图片, 视频 → 文字
视觉 Vision

指令跟随、数学、解题、代码整体提升,万物识别能力提升,支持多样格式直接精准定位视觉元素,支持对长视频文件(最长10分钟)进行理解和秒级别的事件时刻定位,能理解时间先后和快慢,基于解析和定位能力支持操控OS或Mobile的Agent,关键信息抽取能力和Json格式输出能力强,此版本为72B版本,本系列能力最强的版本。

供应商对比

供应商 输入价格 输出价格 上下文 吞吐量 延迟
硅基流动 4.13 元 4.13 元 131,072 37.12 t/s - 访问 →
天翼云 4.13 元 4.13 元 8,192 32.65 t/s - 访问 →
PPIO派欧云 4.2 元 4.2 元 32,768 32.35 t/s - 访问 →
SophNet 4.5 元 4.5 元 131,072 23.06 t/s - 访问 →
无问芯穹 10 元 10 元 131,072 22.39 t/s - 访问 →
阿里云百炼 16 元 48 元 131,072 23.86 t/s - 访问 →
七牛云 16 元 48 元 131,072 22.51 t/s - 访问 →
并行智算云 16 元 48 元 131,072 - - 访问 →