先看输出价格
聊天、代码和 Agent 工作流经常把更多钱花在输出 Token 上,尤其是有重试时。
按输入 Token、缓存输入、输出 Token、上下文窗口和计费注意点,对比主流大模型 API 价格。本页用于开发者做成本预估,生产前仍需核对官方价格页。
默认单位为每 100 万 Token。美元和人民币计费保留原始币种,方便比较区域服务商,同时避免隐藏汇率风险。
| 提供商 | 模型 | 输入 / 百万 | 缓存输入 | 输出 / 百万 | 上下文 | 计费注意 | 关键限制 | 来源 |
|---|---|---|---|---|---|---|---|---|
OpenAIOPENAI-GPT-55 | GPT-5.5 | $5.00 | $0.50 | $30.00 | 标准价格适用于 270K 以下上下文 | Batch 可降低 Token 价格,数据驻留会增加附加费。 | 旗舰模型价格高,输出较多的任务成本会快速上升。 | 访问官网 ↗ |
AnthropicANTHROPIC-CLAUDE-SONNET | Claude Sonnet 4.6 | $3.00 | $0.30 缓存命中 | $15.00 | 长上下文代码与 Agent 任务 | 缓存写入与缓存命中分别计费。 | 适合代码和 Agent,但重复上下文必须设计缓存策略。 | 访问官网 ↗ |
Google GeminiGOOGLE-GEMINI-PRO | Gemini 2.5 Pro | $1.25 / $2.50 | $0.125 / $0.25 | $10.00 / $15.00 | Prompt 超过 200K 后进入更高阶梯 | 有免费层,但付费价格取决于 Prompt 长度和模式。 | 长 Prompt 会进入更高输入阶梯,RAG 切片要谨慎。 | 访问官网 ↗ |
xAIXAI-GROK | Grok 4.3 | $1.25 | 未列出 | $2.50 | 100 万 Token | 搜索工具和媒体 API 不包含在文本 Token 价格内。 | 文本价格有竞争力,但实时搜索任务要核对工具费用。 | 访问官网 ↗ |
DeepSeekDEEPSEEK-V4-FLASH | DeepSeek V4 Flash | $0.14 | $0.0028 | $0.28 | 100 万上下文,最大输出 384K | 同时提供 OpenAI 兼容和 Anthropic 兼容端点。 | 价格极低,但要核对优惠窗口和并发限制。 | 访问官网 ↗ |
阿里通义千问QWEN-PLUS | Qwen-Plus | ¥0.8 至 ¥4.8 | 取决于套餐 | ¥2 至 ¥64 | 按输入长度阶梯,最高到 100 万 | 思考模式和更长 Prompt 会进入更高输出阶梯。 | 基础价格低,但超过 128K 后阶梯跳升明显。 | 访问官网 ↗ |
腾讯混元TENCENT-HUNYUAN | 混元 TurboS / T1 | ¥0.8 至 ¥1.0 | 未列出 | ¥2.0 至 ¥4.0 | 按 TokenHub 模型计费 | 公开文档引导开发者查看 TokenHub 的模型级价格。 | 区域计费和模型别名上线前必须在控制台核对。 | 访问官网 ↗ |
小米 MiMoXIAOMI-MIMO | MiMo V2.5 Pro | ¥7.35 | ¥1.47 | ¥22.05 | 此阶梯适用于 256K 以内 Prompt | 另有 Token Plan 套餐,编码 Agent 使用前要比较点数规则。 | 适合 MiMo 生态工作流,但计费方式与国际 API 不完全一致。 | 访问官网 ↗ |
聊天、代码和 Agent 工作流经常把更多钱花在输出 Token 上,尤其是有重试时。
Prompt 缓存适合长系统提示、代码仓库和文档,不适合一次性短调用。
Gemini、千问、MiMo 等服务商可能在 Prompt 长度超过阈值后切换价格阶梯。
搜索、代码执行、联网 grounding、图片、语音和批处理模式,可能与文本 Token 分开计费。
输入 Token 是你发送给模型的 Prompt 和上下文。输出 Token 是模型生成的内容,通常更贵,因为生成过程会持续占用推理资源。
DeepSeek 和部分国内模型的标价很低,Grok 4.3 的美元计费也有竞争力。实际答案取决于输出长度、缓存命中率、并发和区域延迟。
不应该。复杂推理、代码和模糊任务可以用旗舰模型,但抽取、分类、改写和简单聊天在质量足够时应路由到更便宜的模型。
先估算平均输入 Token、缓存输入 Token、输出 Token、重试、工具调用和日活用户数,再在公开流量到来前设置用户级上限和告警阈值。