GLM-4.6V

视觉理解

模型信息

输入价格 0.4 - 2.29 元 每百万tokens
输出价格 3 - 6.86 元 每百万tokens
上下文长度 131,072 - 204,800 tokens
模态 文字, 图片, 视频 → 文字
视觉 Vision

GLM-4.6V 是 GLM 系列在多模态方向上的一次重要迭代,它将训练时上下文窗口提升到128k tokens,在视觉理解精度上达到同参数规模 SOTA,并首次在模型架构中将 Function Call(工具调用)能力原生融入视觉模型,打通从「视觉感知」到「可执行行动(Action)」的链路,为真实业务场景中的多模态 Agent 提供统一的技术底座。

供应商对比

供应商 输入价格 输出价格 上下文 吞吐量 延迟
硅基流动 1 元 3 元 131,072 26.54 t/s - 访问 →
PPIO派欧云 1 元 3 元 131,072 23.40 t/s - 访问 →
UCloud 1 元 3 元 204,800 22.87 t/s - 访问 →
智谱 1 元 3 元 131,072 23.84 t/s - 访问 →
模力方舟 2 元 6 元 131,072 22.94 t/s - 访问 →
无问芯穹 2 元 6 元 131,072 21.50 t/s - 访问 →
并行智算云 2.29 元 6.86 元 131,072 - - 访问 →