一、引言：API选型决定AI应用的上限二、本文评分维度说明三、各平台深度评测四、价格对比大表五、性能Benchmark横向对比六、综合评分表七、不同场景的选型推荐八、结论与个人推荐常见问题（FAQ）

2026年AI API平台终极测评：OpenAI、Anthropic、Google Gemini、DeepSeek、Kimi深度对比

Q: 二、本文评分维度说明

在进入各平台评测之前，先说明我用的五个评分维度，以及为什么选这五个。 1. 模型性能（满分10分） 综合评估推理能力、代码生成、长文本理解、多语言支持、指令遵循质量。这是最核心的维度，权重最高。不只看benchmark分数，更看实际使用中的"可靠感"。 2. 价格/百万Token（满分10分） 分别考察输入token和输出token的定价。这个维度对高并发、大批量应用尤其关键。分越高代表性价比越高。 3. 上下文窗口（满分10分） 最大支持的上下文长度。对于文档分析、代码库理解、长对话场景来说，这个指标直接决定能不能用。 4. 响应速度/延迟（满分10分） 包括首字延迟（TTFT）和整体吞吐速

Q: 三、各平台深度评测

3.1 OpenAI API 主力模型：GPT4o、o3、o4mini OpenAI依然是这个行业的定义者，尽管它在2025年经历了不少风波，但API层面的综合体验仍然是行业标杆。 GPT4o 目前的定价是 $2.5/百万输入tokens，$10/百万输出tokens。这个价格相比2024年的GPT4 Turbo已经便宜了很多，但放在2026年的竞争格局里，仍然算中高价位。它的强项是多模态处理——图文混合输入、视觉理解的自然程度是同级里最好的，工具调用的稳定性也非常高，JSON模式下的格式合规率接近100%，这对企业级应用来说很重要。 o3 是推理模型，定价 $10/百万输入tokens，$4

Q: 四、价格对比大表

平台 模型 输入价格（$/百万tokens） 输出价格（$/百万tokens） 上下文窗口 OpenAI GPT4o $2.50 $10.00 128K OpenAI o3 $10.00 $40.00 200K OpenAI o4mini $1.10 $4.40 200K OpenAI GPT4o mini $0.15 $0.60 128K Anthropic Claude 4 Opus $15.00 $75.00 200K Anthropic Claude 4 Sonnet $3.00 $15.00 200K Anthropic Claude 3.5 Haiku $0.80 $4.00 20

Q: 常见问题（FAQ）

Q：OpenAI API和Anthropic API哪个更便宜？ 取决于你选择哪个档位的模型对比。同级别对比：GPT4o（$2.5/$10每百万tokens）vs Claude 4 Sonnet（$3/$15每百万tokens），OpenAI稍便宜约2030%；o3（$10/$40）vs Claude 4 Opus（$15/$75），OpenAI便宜约33%。但如果选轻量模型，o4mini（$1.1/$4.4）vs Claude 3.5 Haiku（$0.8/$4），Anthropic反而更便宜。综合来看，日常任务（写作、代码、分析）选Claude 4 Sonnet vs GPT4o，价格差距

AI文章编辑部2026-06-30AI APIOpenAIAnthropicGeminiDeepSeekKimi平台测评AI测评AI工具选型

面向需要接入大模型API的开发者和企业，比较OpenAI、Anthropic、Google Gemini、DeepSeek、Kimi在模型能力、价格、稳定性和生态上的取舍。

一、引言：API选型决定AI应用的上限

去年有个朋友找我抱怨，说他们团队花了三个月做的AI写作助手，上线后用户反馈"写出来的东西太硬，不像人说的话"。我问他用的什么模型，他说用的某个便宜的API，觉得效果差不多，省成本嘛。我当时就明白问题出在哪了——不是他的提示词写得差，也不是产品逻辑有问题，就是底层模型选错了。

这个例子在AI创业圈里太常见了。很多团队在技术选型阶段把API当成标准化的水电煤，觉得谁家便宜用谁家，殊不知不同平台之间，在推理深度、指令遵循、长文本理解、工具调用稳定性上的差距，可以大到让同一个产品呈现出截然不同的用户体验。

选错API的代价是多维度的：轻则用户流失、口碑受损，重则整个产品架构要推倒重来。更麻烦的是，等你意识到问题、完成迁移，可能已经错过了最佳的市场窗口期。尤其是在2025年底到2026年这段时间，各家大模型的迭代节奏极快，价格战打得飞起，格局变化之剧烈，让很多上一年做的选型报告都失效了。

所以这篇文章我打算认真写一次。不是那种堆参数、堆数字的对比表格文，而是结合我自己实际调用、测试、踩坑的经验，给你一个相对真实的2026年中期视角。这五个平台——OpenAI、Anthropic、Google Gemini、DeepSeek、Kimi——我都花时间用过，累计调用量超过500万tokens，有些槽点憋了很久，这次一起说清楚。以下内容基于我2026年5-6月的实际测试数据。

二、本文评分维度说明

在进入各平台评测之前，先说明我用的五个评分维度，以及为什么选这五个。

1. 模型性能（满分10分） 综合评估推理能力、代码生成、长文本理解、多语言支持、指令遵循质量。这是最核心的维度，权重最高。不只看benchmark分数，更看实际使用中的"可靠感"。

2. 价格/百万Token（满分10分） 分别考察输入token和输出token的定价。这个维度对高并发、大批量应用尤其关键。分越高代表性价比越高。

3. 上下文窗口（满分10分） 最大支持的上下文长度。对于文档分析、代码库理解、长对话场景来说，这个指标直接决定能不能用。

4. 响应速度/延迟（满分10分） 包括首字延迟（TTFT）和整体吞吐速度。交互类应用对延迟非常敏感，批量处理类则更关注吞吐。

5. 功能丰富性（满分10分） 工具调用（Function Calling）、结构化输出、多模态支持、批处理API、流式输出、微调能力、Embedding支持等生态完整度。

三、各平台深度评测

3.1 OpenAI API

主力模型：GPT-4o、o3、o4-mini

OpenAI依然是这个行业的定义者，尽管它在2025年经历了不少风波，但API层面的综合体验仍然是行业标杆。

GPT-4o 目前的定价是 $2.5/百万输入tokens，$10/百万输出tokens。这个价格相比2024年的GPT-4 Turbo已经便宜了很多，但放在2026年的竞争格局里，仍然算中高价位。它的强项是多模态处理——图文混合输入、视觉理解的自然程度是同级里最好的，工具调用的稳定性也非常高，JSON模式下的格式合规率接近100%，这对企业级应用来说很重要。

o3 是推理模型，定价 $10/百万输入tokens，$40/百万输出tokens，专门为复杂推理任务设计。实测下来，在多步骤数学推导、法律文本分析、代码架构设计这类需要"慢想"的任务上，o3的表现确实有别于一般的自回归模型，它会主动列出推理链，中间步骤的逻辑连贯性很强。但代价是延迟极高，有时候一个请求要等30秒以上，对实时应用基本不可用。

o4-mini 是个有趣的折中方案，定价 $1.1/百万输入tokens，$4.4/百万输出tokens，在推理能力和成本之间做了一个不错的平衡。我在代码生成任务上测过，o4-mini的HumanEval得分只比o3低几个百分点，但价格不到九分之一，对代码类应用来说是个很值得考虑的选项。

槽点： OpenAI的API限速策略一直是开发者的心病。免费tier和低付费等级的RPM（每分钟请求数）上限很低，偶发性的503错误在流量峰值时依然存在。另外，批处理API（Batch API）虽然有50%折扣，但最长24小时的延迟对很多场景来说太慢了。还有一个长期抱怨：客服响应速度，企业客户遇到账单问题经常要等好几天，这在国内用户里口碑很差。

上下文窗口： 128K tokens（GPT-4o），已经够用，但对比Google Gemini的百万级上下文，差距明显。

总结： 如果你的应用需要极高的工具调用稳定性、成熟的多模态支持，或者你的团队对OpenAI生态更熟悉，OpenAI依然是最安全的选择。但如果你的预算敏感或者有超长上下文需求，就要认真对比其他选项了。

3.2 Anthropic API

主力模型：Claude 4 Opus、Claude 4 Sonnet

Anthropic在2026年的地位有点像苹果——不是市场份额最大的，但有一批极忠诚的用户。Claude系列一直以"写作质量"和"安全性"著称，Claude 4这一代在推理能力上有了明显跃升。

Claude 4 Opus 是旗舰模型，定价约 $15/百万输入tokens，$75/百万输出tokens，是这篇文章里定价最高的单个模型。但凡是用过Opus写过复杂长文、做过深度分析的人，大多数不会抱怨这个价格——因为它的输出质量确实配得上。我用它处理过一份80页的法律合同分析，不仅准确提取了关键条款，还主动标注了潜在风险点，措辞的专业程度让甲方法务团队以为是真人写的。

Claude 4 Sonnet 则是性价比更高的选择，定价 $3/百万输入tokens，$15/百万输出tokens，在代码、分析、写作上的表现只比Opus略逊一筹，但价格只有五分之一。对大多数业务场景来说，Sonnet是更合理的日常主力。

200K上下文是Claude系列的一个重要卖点。实测表明，在接近200K的长度时，Claude对早期内容的注意力保持得比大多数竞品好，不会出现明显的"中间遗忘"现象（也就是所谓的Lost-in-the-Middle问题）。对于需要处理超长文档、整个代码库上下文的场景，这个特性非常有价值。

工具调用质量： Claude 4的Function Calling在复杂多工具场景下的稳定性很高，尤其是在需要并行调用多个工具、或者工具调用结果需要继续推理的场景，出错率明显低于同价位竞品。这也是很多做AI Agent的团队选择Anthropic的核心原因。

槽点： 国内访问稳定性是个大问题，没有稳定的代理基本上不能用于生产环境。另外，Anthropic的Batch API折扣（同样是50%）的延迟也要到24小时，文件处理API的生态成熟度不及OpenAI。价格偏高也是事实，对创业团队的成本压力不小。Anthropic在企业级SLA、专属部署这块的服务还不够完善，大企业客户有时候会觉得支持力度不如微软Azure上的OpenAI。

总结： 做内容生成、复杂分析、AI Agent的首选。如果你对输出质量有极高要求，或者你的应用场景对"安全、不出格"有强需求，Anthropic是最稳的选择。

3.3 Google Gemini API

主力模型：Gemini 2.5 Pro、Gemini 2.5 Flash

Google在2025年终于打了一场翻身仗。Gemini 2.5系列的发布让很多之前不看好Google AI的开发者改变了看法，尤其是那个让人瞠目结舌的100万token上下文——不是噱头，是真的可以用。

Gemini 2.5 Pro 定价 $1.25/百万输入tokens（超过200K后$2.5），$10/百万输出tokens。这个价格在旗舰模型里算很有竞争力，尤其考虑到它的上下文能力。我做过一个测试：把整个React源码库（约50万tokens）丢进去问架构问题，Gemini 2.5 Pro能够正确引用具体文件路径和函数名，这种"超长上下文理解"的能力是其他模型目前很难复制的。

Gemini 2.5 Flash 是速度和价格的极致，定价 $0.075/百万输入tokens，$0.30/百万输出tokens，响应速度极快，TTFT通常在500ms以内。对于高并发、低延迟要求的场景，Flash是目前市面上综合表现最好的选项之一。免费tier的额度也相当慷慨，适合开发者快速原型验证。

Google AI Studio 提供的免费额度是这几家里最大方的，每天有相当数量的免费请求，早期产品验证阶段基本不用花钱。

多模态能力： Gemini原生支持文本、图像、音频、视频的混合输入，这是Google相比其他平台的独特优势。在需要处理视频内容的应用（比如视频字幕分析、会议纪要生成）里，Gemini几乎是唯一的主流选择。

槽点： 国内访问同样需要代理，但相比Anthropic稍微好一点。更大的问题在于：Gemini的指令遵循精度有时候不如OpenAI和Anthropic稳定，在特别复杂的System Prompt下，偶尔会出现"选择性遵循"的情况。工具调用的生态成熟度也比OpenAI差一些，第三方框架（LangChain、LlamaIndex等）对Gemini的支持虽然在完善，但仍有些边角情况会出问题。另外，Vertex AI和Google AI Studio两套API之间的不一致性让开发者有时候感到困惑。

总结： 超长上下文需求的首选，没有之一。性价比在旗舰模型里也很突出。如果你的应用需要处理视频或者超长文档，Gemini 2.5 Pro几乎是必选项。

3.4 DeepSeek API

主力模型：DeepSeek R1、DeepSeek V3

DeepSeek是这篇文章里最让我觉得惊喜的一个选项，没有之一。2025年初横空出世之后，它彻底搅动了整个AI API的定价体系，逼得OpenAI和Anthropic都不得不降价。

DeepSeek V3 的定价是 $0.27/百万输入tokens（缓存命中时$0.07），$1.1/百万输出tokens。这个价格是GPT-4o的十分之一左右，但在多数通用任务上，性能和GPT-4o基本处于同一量级。我做了大量代码生成对比测试，DeepSeek V3在Python、JavaScript日常开发任务上的表现让我很难说它明显弱于GPT-4o。

DeepSeek R1 是推理模型，定价 $0.55/百万输入tokens，$2.19/百万输出tokens。对比OpenAI o3的$10/$40，这个价格差距几乎令人难以置信。在数学、逻辑推理任务上，R1的MATH benchmark得分和o3相差无几，但价格只有约5%。如果你的应用需要大量推理任务，DeepSeek R1的成本优势是压倒性的。

开源优势： DeepSeek R1和V3的模型权重是开放的。这意味着如果你有足够的算力，可以自己部署，API成本可以降到几乎为零。很多大型企业已经在内网部署了DeepSeek，彻底绕开了API定价。

中文能力： 作为国内团队做的模型，DeepSeek在中文理解和生成上有天然优势，在中文推理题、古文理解、中文代码注释生成等场景下表现尤其好。

槽点： 稳定性是DeepSeek目前最大的短板。去年年初流量暴增的时候，API频繁出现限流和超时，让不少用它做生产环境的团队吃了苦头。虽然现在有所改善，但跟OpenAI的SLA比仍有差距。另外，Function Calling的复杂场景支持还不够成熟，在并行工具调用、嵌套工具调用上有时会出错。多模态支持目前仅限文本，图像输入的能力还在路线图上。生态方面，第三方工具对DeepSeek的支持在快速完善，但仍不如OpenAI全面。国内服务器的延迟对全球用户来说可能偏高。

总结： 成本敏感项目的最佳选择。如果你是独立开发者、小团队，或者在做需要大量API调用的批处理任务，DeepSeek的价格优势无可替代。企业级生产环境建议做好降级方案。

3.5 Kimi API（月之暗面）

主力模型：Moonshot-v1-128k、Kimi-latest

Kimi是国内AI API里我觉得最被低估的一个。月之暗面团队在超长上下文这个方向上一直有独特的技术积累，2026年的Kimi API已经相当成熟，国内访问稳定是它最大的差异化优势。

Moonshot-v1-128k 支持128K上下文，定价约 ¥12/百万输入tokens（约$1.65），¥12/百万输出tokens。国内用户不需要代理，API延迟稳定，对于面向国内用户的应用来说，这个稳定性价值很高。Kimi-latest 是更新的版本，在推理能力和中文处理上有进一步提升。

中文优化： 这是Kimi最值得说的一点。在中文长文档处理、中文写作、中文问答场景下，Kimi的表现往往优于同价位的海外模型。中文的语感、用词的地道程度，用过的开发者普遍反映比GPT-4o的中文输出更"像中国人写的"。对于内容类、教育类、面向中文用户的产品，这一点不可忽视。

长文档处理： Kimi的128K上下文在实际使用中处理长PDF、长文章的效果很扎实，不会出现明显的截断或遗忘问题，对于文档理解类应用很实用。API文档清晰，接入成本低，国内团队的开发体验友好。

Kimi的File API 支持直接上传PDF、Word等文档格式，模型会自动解析内容，对于做文档类应用的开发者来说省了不少预处理工作。

槽点： 国际化能力是明显短板——英文能力和海外主流模型有差距，如果你的应用需要服务全球用户，Kimi不是最优选。推理能力和代码生成质量与OpenAI、Anthropic的顶级模型相比有差距，在复杂数学和高难度代码任务上表现较弱。多模态支持的成熟度不如Gemini和GPT-4o，函数调用的生态也没那么完善。另外模型迭代的透明度不够高，有时候API行为变化没有充分的提前通知。

总结： 面向国内用户的中文应用首选之一。访问稳定+中文优化+合理定价，是做国内市场产品的开发者应该认真考虑的选项。

四、价格对比大表

平台	模型	输入价格（$/百万tokens）	输出价格（$/百万tokens）	上下文窗口
OpenAI	GPT-4o	$2.50	$10.00	128K
OpenAI	o3	$10.00	$40.00	200K
OpenAI	o4-mini	$1.10	$4.40	200K
OpenAI	GPT-4o mini	$0.15	$0.60	128K
Anthropic	Claude 4 Opus	$15.00	$75.00	200K
Anthropic	Claude 4 Sonnet	$3.00	$15.00	200K
Anthropic	Claude 3.5 Haiku	$0.80	$4.00	200K
Google	Gemini 2.5 Pro	$1.25	$10.00	1,000K
Google	Gemini 2.5 Flash	$0.075	$0.30	1,000K
Google	Gemini 2.0 Flash	$0.10	$0.40	1,000K
DeepSeek	DeepSeek V3	$0.27	$1.10	128K
DeepSeek	DeepSeek R1	$0.55	$2.19	128K
Kimi	Moonshot-v1-128k	~$1.65	~$1.65	128K
Kimi	Kimi-latest	~$2.00	~$2.00	128K

注：价格以2026年6月公开定价为准，部分价格因汇率或促销活动可能有变动，DeepSeek缓存命中时输入价格更低（$0.07）。

五、性能Benchmark横向对比

Benchmark	OpenAI o3	Claude 4 Opus	Gemini 2.5 Pro	DeepSeek R1	Kimi-latest
MMLU（知识广度）	91.8%	90.5%	91.2%	90.3%	87.5%
HumanEval（代码生成）	92.4%	90.1%	89.7%	91.2%	82.3%
MATH（数学推理）	97.2%	95.3%	96.1%	96.8%	89.4%
GPQA Diamond（科学推理）	87.9%	86.5%	86.3%	85.7%	78.2%
MMLU-Pro（专业知识）	88.5%	87.2%	88.1%	86.9%	82.1%
中文C-Eval	85.3%	83.7%	84.2%	88.1%	90.3%
LiveCodeBench（实战代码）	70.2%	68.4%	68.8%	69.7%	61.5%

注：各项数据综合自各平台官方报告及第三方评测机构（Chatbot Arena、Scale AI Eval等），部分数字为综合评估估算，供参考对比。具体benchmark因测试版本和时间不同会有差异。

几点值得特别关注：

DeepSeek R1在MATH和HumanEval上的得分令人印象深刻，几乎与Claude 4 Opus和Gemini 2.5 Pro并肩，但价格只有十分之一左右
Kimi在C-Eval（中文基准）上得分最高，印证了其中文能力的优势
Gemini 2.5 Pro的综合能力非常均衡，几乎没有明显短板

六、综合评分表

评分维度	OpenAI	Anthropic	Gemini	DeepSeek	Kimi
模型性能	9.2	9.4	9.0	8.8	7.8
价格/性价比	6.5	5.5	8.5	9.8	7.5
上下文窗口	7.0	8.0	10.0	7.0	7.5
响应速度/延迟	7.5	7.0	9.0	7.5	8.0
功能丰富性	9.5	8.5	8.5	7.0	7.0
综合均分	7.94	7.68	9.00	8.02	7.56

说明：价格/性价比维度，分越高代表性价比越高（价格越低、能力越强则得分越高）。

这张表我思考了比较久，尤其是Gemini的综合分最高这个结论——其实不是说Gemini就是最好的，而是在"综合均衡"这个维度上，Gemini 2.5系列目前做得最没有短板。DeepSeek的性价比满分是真的，但功能生态和稳定性把总分拉了下来。Anthropic的模型性能得分最高，但价格实在太贵，影响了综合排名。

七、不同场景的选型推荐

成本敏感项目 → 推荐 DeepSeek

如果你是独立开发者、早期创业团队，或者在做需要大量API调用的批处理任务（比如批量内容生成、大规模数据分析），DeepSeek V3或R1是首选。相同预算下，你能调用的次数是OpenAI的10倍左右，这个差距在某些项目里直接决定商业可行性。Gemini Flash也值得考虑，尤其是超长上下文场景下的高性价比任务。

高质量推理任务 → 推荐 Anthropic Claude 4 Opus 或 OpenAI o3

需要深度分析、复杂推理、高质量长文本输出的场景（法律、医疗、金融分析、学术研究等），Claude 4 Opus和o3是目前最稳的两个选项。如果更在意指令遵循的精确性和工具调用的稳定性，选Anthropic；如果更在意推理链的透明度和数学/逻辑能力，选OpenAI o3。正式接入前，建议用自家真实任务做一轮小规模基准测试。

企业级稳定性 → 推荐 OpenAI（Azure OpenAI Service）

如果你的应用需要SLA保障、合规证明、专属部署、企业支持合同，Azure上的OpenAI服务目前是最成熟的企业级选项。国内合规性有特殊需求的，可以考虑百度千帆、阿里云百炼上的相关服务，但那超出了本文讨论范围。

中文应用场景 → 推荐 Kimi 或 DeepSeek

面向中国大陆用户的应用，Kimi的国内访问稳定+中文优化组合是很有竞争力的。如果同时对推理能力有较高要求，DeepSeek在中文能力上也非常出色，而且价格优势更大。两者都不需要代理，这在生产环境里是实实在在的运维优势。涉及国内模型选型时，还要把内容合规、发票合同、数据驻留和服务支持一起纳入评估。

超长上下文 → 推荐 Google Gemini 2.5 Pro

百万级别的上下文窗口，目前没有其他主流平台能与之竞争。如果你的应用需要处理整本书、大型代码库、超长会议记录，Gemini 2.5 Pro是唯一的主流选项。价格合理，性能有保证。

多模态复杂应用 → 推荐 Google Gemini 2.5 Pro 或 OpenAI GPT-4o

原生支持视频、音频输入的只有Gemini，如果有视频分析需求，没得选。图文混合的多模态场景，OpenAI GPT-4o的图像理解质量和工具调用结合的稳定性仍有优势。

八、结论与个人推荐

2026年的AI API市场已经不再是OpenAI一家独大的时代了。DeepSeek的出现真正打破了定价体系，Gemini 2.5的崛起提供了另一套技术路径，Anthropic在质量上依然保持着高位，而以Kimi为代表的国内平台也在细分场景里找到了自己的位置。

如果让我给出一个最简单的推荐逻辑：先用Gemini 2.5 Flash做原型验证（省钱）→ 上线后根据具体任务类型，代码/推理切DeepSeek R1，写作/分析切Claude 4 Sonnet，超长上下文切Gemini 2.5 Pro，中文场景加入Kimi做备选。没有哪一家平台是全能冠军，多API策略在2026年已经是工程标配，不同任务路由到最合适的模型，才是真正的成本优化和质量保证。

最后想说的是：这个行业的变化速度快得让人头皮发麻，今天写的对比，明天可能就有新模型发布让表格数字过时。保持跟踪，保持测试，保持对你自己业务场景的清醒认知——这才是选型的本质。

常见问题（FAQ）

Q：OpenAI API和Anthropic API哪个更便宜？

取决于你选择哪个档位的模型对比。同级别对比：GPT-4o（$2.5/$10每百万tokens）vs Claude 4 Sonnet（$3/$15每百万tokens），OpenAI稍便宜约20-30%；o3（$10/$40）vs Claude 4 Opus（$15/$75），OpenAI便宜约33%。但如果选轻量模型，o4-mini（$1.1/$4.4）vs Claude 3.5 Haiku（$0.8/$4），Anthropic反而更便宜。综合来看，日常任务（写作、代码、分析）选Claude 4 Sonnet vs GPT-4o，价格差距不大但Claude输出质量普遍被用户评为更好。成本敏感项目两者都可以考虑搭配DeepSeek V3（$0.27/$1.1）来大幅降低费用。

Q：DeepSeek API的价格是多少？

DeepSeek V3（通用模型）：输入$0.27/百万tokens，缓存命中时仅$0.07/百万tokens；输出$1.1/百万tokens。DeepSeek R1（推理模型）：输入$0.55/百万tokens，输出$2.19/百万tokens。这个价格是GPT-4o的约十分之一，是Claude 4 Sonnet的约十五分之一。实际使用中，如果你的应用有大量重复性提示词（缓存命中率高），成本还能进一步降低。需要注意：DeepSeek的API稳定性在高并发场景下有时不如OpenAI，建议在生产环境准备备用API方案。国内用户访问DeepSeek API无需代理，延迟稳定。

Q：Gemini API有免费额度吗？

有，而且是这几家中最慷慨的。通过Google AI Studio使用Gemini API：Gemini 2.5 Flash每天免费500次请求（约100万tokens），Gemini 2.5 Pro每天免费50次请求。对于早期产品验证、个人项目和学习场景，这个免费额度基本够用。进入付费后：Gemini 2.5 Flash是$0.075/$0.30每百万tokens，是目前主流模型中性价比最高的选项之一。需要注意：免费版有速率限制（每分钟15次请求），且使用数据可能用于Google的模型改进，有数据隐私需求的企业需要使用Vertex AI付费版本（有数据不泄露承诺）。

Q：国内访问OpenAI API需要梯子吗？

技术上需要。OpenAI的API在中国大陆无法直连，必须通过代理服务器或VPN访问。这对生产环境是个现实问题：一旦代理不稳定，应用就会出现连接超时。常见的工程解决方案：①使用Azure OpenAI Service——微软在国内有合规的云服务，通过Azure部署的OpenAI可以在国内直连，延迟更低、合规性更好，但价格约高5-10%；②使用国内中转API服务——有一些第三方服务提供OpenAI API的代理，需要评估稳定性和数据安全风险；③切换到国内可直接访问的平台——DeepSeek、Kimi、百度千帆、阿里云百炼都可以国内直连，功能和价格越来越有竞争力。对于面向国内用户的生产级应用，建议优先选择无需代理的API方案。

Q：企业用AI API选哪家最稳定？

从企业级SLA和稳定性角度排序：第一梯队：Azure OpenAI Service（微软企业级SLA、合规证书最全、国内可直连、专属部署选项）和Google Vertex AI（GCP企业级保障、Gemini最高性能）；第二梯队：OpenAI API直连（稳定性好但无SLA保障、国内需代理）和Anthropic API（质量高但企业服务相对不完善）；第三梯队：DeepSeek API（成本优势明显但稳定性在大流量下有风险）。建议策略：核心业务路径用Azure OpenAI或Vertex AI保稳定，次要路径和批处理任务用DeepSeek/Kimi控成本，形成主备+成本分层的多平台架构。

官方入口与复核清单

AI产品、模型能力、免费额度和价格变化很快。阅读本文后，建议在实际采购、上线或教学引用前，再到下面这些官方入口复核最新版本、定价、服务条款和地区可用性：

目录