模型信息
输入价格
2 - 4 元
每百万tokens
输出价格
8 - 16 元
每百万tokens
上下文长度
65,536 - 131,072
tokens
模态
文字
→ 文字
DeepSeek-V3 是一款强大的专家混合(MoE)语言模型,总参数量为 6710 亿,每个 token 激活 37 亿个参数。为实现高效推理和具成本效益的训练,该模型采用了多头潜在注意力(MLA)机制和在 DeepSeek-V2 中已验证有效的 DeepSeekMoE 架构。此外,DeepSeek-V3 首次引入无辅助损失(auxiliary-loss-free)策略进行负载均衡,并设定多 token 预测的训练目标以提升性能。 模型在 14.8 万亿个多样且高质量的 token 上进行了预训练,随后通过监督微调(Supervised Fine-Tuning)和强化学习(Reinforcement Learning)阶段充分发挥其潜力。综合评估结果显示,DeepSeek-V3 性能优于其他开源模型,并达到与领先闭源模型相当的水平。 尽管性能优异,DeepSeek-V3 的完整训练仅耗费 278.8 万 H800 GPU 小时。其训练过程高度稳定,未出现任何无法挽回的损失峰值,也未进行任何回滚操作。
供应商对比
共 6 家供应商提供此模型
| 供应商 | 输入价格 | 输出价格 | 上下文 | 吞吐量 | 延迟 | |
|---|---|---|---|---|---|---|
| 阿里云百炼 | 2 元 | 8 元 | 65,536 | 35.08 t/s | 1.31 秒 | 访问 → |
| PPIO派欧云 | 2 元 | 8 元 | 65,536 | 32.29 t/s | - | 访问 → |
| 七牛云 | 2 元 | 8 元 | 131,072 | 34.23 t/s | - | 访问 → |
| 快手万擎 | 2 元 | 8 元 | 131,072 | 30.19 t/s | - | 访问 → |
| 京东云 | 2 元 | 8 元 | 65,536 | 28.40 t/s | 1.10 秒 | 访问 → |
| 腾讯云 | 4 元 | 16 元 | 65,536 | 27.98 t/s | - | 访问 → |