大模型 API 价格对比

2026年免费大语言模型 (LLM) API 额度调用对比

按输入 Token、缓存输入、输出 Token、上下文窗口和计费注意点，对比主流大模型 API 价格。本页用于开发者做成本预估，生产前仍需核对官方价格页。

价格快照核对时间: 2026-05-23

全球主流大模型 API 价格矩阵

默认单位为每 100 万 Token。美元和人民币计费保留原始币种，方便比较区域服务商，同时避免隐藏汇率风险。

提供商	模型	输入 / 百万	缓存输入	输出 / 百万	上下文	计费注意	关键限制	来源
OpenAIOPENAI-GPT-55	GPT-5.5	$5.00	$0.50	$30.00	标准价格适用于 270K 以下上下文	Batch 可降低 Token 价格，数据驻留会增加附加费。	旗舰模型价格高，输出较多的任务成本会快速上升。	访问官网 ↗
AnthropicANTHROPIC-CLAUDE-SONNET	Claude Sonnet 4.6	$3.00	$0.30 缓存命中	$15.00	长上下文代码与 Agent 任务	缓存写入与缓存命中分别计费。	适合代码和 Agent，但重复上下文必须设计缓存策略。	访问官网 ↗
Google GeminiGOOGLE-GEMINI-PRO	Gemini 2.5 Pro	$1.25 / $2.50	$0.125 / $0.25	$10.00 / $15.00	Prompt 超过 200K 后进入更高阶梯	有免费层，但付费价格取决于 Prompt 长度和模式。	长 Prompt 会进入更高输入阶梯，RAG 切片要谨慎。	访问官网 ↗
xAIXAI-GROK	Grok 4.3	$1.25	未列出	$2.50	100 万 Token	搜索工具和媒体 API 不包含在文本 Token 价格内。	文本价格有竞争力，但实时搜索任务要核对工具费用。	访问官网 ↗
DeepSeekDEEPSEEK-V4-FLASH	DeepSeek V4 Flash	$0.14	$0.0028	$0.28	100 万上下文，最大输出 384K	同时提供 OpenAI 兼容和 Anthropic 兼容端点。	价格极低，但要核对优惠窗口和并发限制。	访问官网 ↗
阿里通义千问QWEN-PLUS	Qwen-Plus	¥0.8 至 ¥4.8	取决于套餐	¥2 至 ¥64	按输入长度阶梯，最高到 100 万	思考模式和更长 Prompt 会进入更高输出阶梯。	基础价格低，但超过 128K 后阶梯跳升明显。	访问官网 ↗
腾讯混元TENCENT-HUNYUAN	混元 TurboS / T1	¥0.8 至 ¥1.0	未列出	¥2.0 至 ¥4.0	按 TokenHub 模型计费	公开文档引导开发者查看 TokenHub 的模型级价格。	区域计费和模型别名上线前必须在控制台核对。	访问官网 ↗
小米 MiMoXIAOMI-MIMO	MiMo V2.5 Pro	¥7.35	¥1.47	¥22.05	此阶梯适用于 256K 以内 Prompt	另有 Token Plan 套餐，编码 Agent 使用前要比较点数规则。	适合 MiMo 生态工作流，但计费方式与国际 API 不完全一致。	访问官网 ↗

按工作负载选择模型

透明 Token 成本最低

DeepSeek V4 Flash

适合抽取、路由、高频聊天，以及重视原始成本的 OpenAI 兼容备选链路。

长上下文推理均衡选择

Gemini 2.5 Pro

适合 RAG、文档分析和多模态原型，但要注意 Prompt 超过 200K 后的更高阶梯。

代码与 Agent 工作流

Claude Sonnet 4.6

当缓存读取能被充分复用时，是代码助手和 Agent 循环的强默认选择。

国内区域性价比组合

Qwen / Hunyuan

当延迟、中文能力、人民币计费或国内云集成更重要时，可以优先比较千问和混元。

如何阅读大模型 API 价格

先看输出价格

聊天、代码和 Agent 工作流经常把更多钱花在输出 Token 上，尤其是有重试时。

缓存只在 Prompt 重复时有用

Prompt 缓存适合长系统提示、代码仓库和文档，不适合一次性短调用。

注意长上下文阶梯价格

Gemini、千问、MiMo 等服务商可能在 Prompt 长度超过阈值后切换价格阶梯。

把工具调用算进预算

搜索、代码执行、联网 grounding、图片、语音和批处理模式，可能与文本 Token 分开计费。

相关分类

AI Gateway

在生产流量前加入路由、可观测性、缓存、Key 隔离和降级控制。

向量数据库

为 RAG、语义搜索和知识库应用存储 Embedding 与检索上下文。

无服务器函数

不用维护服务器，也能运行模型编排、Webhook 处理和后台 AI 任务。

大模型价格常见问题

为什么大模型 API 要区分输入和输出 Token？+

输入 Token 是你发送给模型的 Prompt 和上下文。输出 Token 是模型生成的内容，通常更贵，因为生成过程会持续占用推理资源。

高频文本生成哪个服务商更便宜？+

DeepSeek 和部分国内模型的标价很低，Grok 4.3 的美元计费也有竞争力。实际答案取决于输出长度、缓存命中率、并发和区域延迟。

是否应该默认选择最贵的旗舰模型？+

不应该。复杂推理、代码和模糊任务可以用旗舰模型，但抽取、分类、改写和简单聊天在质量足够时应路由到更便宜的模型。

上线前如何估算大模型 API 月成本？+

先估算平均输入 Token、缓存输入 Token、输出 Token、重试、工具调用和日活用户数，再在公开流量到来前设置用户级上限和告警阈值。