DeepSeek-V3

文本生成

模型信息

输入价格 2 - 4 元 每百万tokens
输出价格 8 - 16 元 每百万tokens
上下文长度 65,536 - 131,072 tokens
模态 文字 → 文字
工具调用 Tools

DeepSeek-V3 是一款强大的专家混合(MoE)语言模型,总参数量为 6710 亿,每个 token 激活 37 亿个参数。为实现高效推理和具成本效益的训练,该模型采用了多头潜在注意力(MLA)机制和在 DeepSeek-V2 中已验证有效的 DeepSeekMoE 架构。此外,DeepSeek-V3 首次引入无辅助损失(auxiliary-loss-free)策略进行负载均衡,并设定多 token 预测的训练目标以提升性能。 模型在 14.8 万亿个多样且高质量的 token 上进行了预训练,随后通过监督微调(Supervised Fine-Tuning)和强化学习(Reinforcement Learning)阶段充分发挥其潜力。综合评估结果显示,DeepSeek-V3 性能优于其他开源模型,并达到与领先闭源模型相当的水平。 尽管性能优异,DeepSeek-V3 的完整训练仅耗费 278.8 万 H800 GPU 小时。其训练过程高度稳定,未出现任何无法挽回的损失峰值,也未进行任何回滚操作。

供应商对比

供应商 输入价格 输出价格 上下文 吞吐量 延迟
阿里云百炼 2 元 8 元 65,536 35.08 t/s 1.31 秒 访问 →
PPIO派欧云 2 元 8 元 65,536 32.29 t/s - 访问 →
七牛云 2 元 8 元 131,072 34.23 t/s - 访问 →
快手万擎 2 元 8 元 131,072 30.19 t/s - 访问 →
京东云 2 元 8 元 65,536 28.40 t/s 1.10 秒 访问 →
腾讯云 4 元 16 元 65,536 27.98 t/s - 访问 →