Google Gemini 2.0 发布：原生多模态与百万级上下文

2026-02-201.4w 次阅读

Google 发布 Gemini 2.0，实现原生多模态输入输出，上下文窗口扩展至 200 万 token。在学术研究、长文档处理和跨语言翻译等场景中表现突出。

200 万 token 上下文：处理整本书不是问题

Gemini 2.0 的上下文窗口扩展至 200 万 token，相当于约 150 万汉字或一本 500 页的专业书籍。这让用户可以一次性上传完整的技术文档、法律合同集或学术论文合集，AI 会在全文范围内进行交叉引用和综合分析。在实际测试中，Gemini 2.0 能够准确回答关于文档中间部分细节的问题，长距离信息召回准确率达到 94%。这项能力对法律行业尤其有价值——律师可以上传整套合同文件，让 AI 自动识别条款冲突、遗漏事项和潜在风险点。在学术场景中，研究者可以将一个领域的 50 篇核心论文一次性输入，AI 会自动梳理研究脉络、标注各论文之间的引用关系和观点分歧。上下文扩展的技术基础是 Google 自研的"稀疏注意力"机制，它在保持 97% 信息召回率的同时将计算成本降低了 60%。这也意味着超长上下文不再是天价功能——API 定价仅比标准版上浮 20%。

原生多模态：不只是看懂图片

与上一代不同，Gemini 2.0 的多模态能力是原生训练的，而非后期拼接。这意味着它在理解图文混合内容（如带标注的技术图纸、含公式的学术论文、带数据标签的信息图表）时表现更加自然和准确。新增的视频理解能力可以逐帧分析视频内容，自动生成时间轴标注和内容摘要。在教育场景中，教师可以上传课堂录像让 AI 自动生成教学笔记和测验题目。Gemini 2.0 还首次支持"多模态输出"——不仅能理解图片，还能在对话中直接生成图像、图表和流程图。例如你可以说"画一个用户注册流程图"，AI 会直接输出专业级的 SVG 流程图。在建筑和工业设计领域，用户可以上传草图让 AI 生成标准化的工程图纸。音频方面，Gemini 2.0 支持 40 种语言的实时语音对话，可以进行同声传译级别的多语言会议翻译。

DeepResearch 功能

Gemini 2.0 推出了 DeepResearch 功能，可以针对一个研究主题自动搜索多个来源、对比不同观点并生成带引用的综述报告。在测试中，一个"新能源汽车电池技术发展趋势"的研究任务，AI 在 3 分钟内检索了 47 篇相关文献并生成了 3000 字的分析报告，每个关键论点都标注了来源链接。DeepResearch 的工作流程包括五个步骤：主题解析（理解用户的研究意图和范围）、多源检索（同时搜索学术数据库、新闻、行业报告和专利库）、信息筛选（过滤低质量和过时内容）、观点聚合（提取不同来源的共识和分歧）、报告生成（按照学术论文格式输出带引用的综述）。对于投资分析师来说，DeepResearch 可以在每个交易日开盘前自动生成目标公司的最新动态汇总。对于产品经理，可以用它快速完成竞品分析和市场调研。Google 还开放了 DeepResearch API，允许企业将深度研究能力集成到自己的产品中。

与 Google 生态深度集成

Gemini 2.0 已深度集成到 Google Workspace 全家桶中，覆盖超过 30 亿用户的日常办公场景。在 Gmail 中，AI 可以自动起草回复、整理邮件摘要、按优先级排序收件箱，并识别需要跟进的邮件生成待办事项。在 Google Docs 中，支持智能编辑和格式化——用户可以说"把这段改成更正式的语气"或"给这个章节加一个数据表格"，AI 会即时完成修改。在 Google Sheets 中，可以用自然语言生成复杂公式和数据透视表，例如"统计每个季度的销售额环比增长率并画成折线图"。在 Google Meet 中，Gemini 2.0 支持实时会议纪要、多语言字幕和会后摘要生成。对于已经使用 Google 生态的企业用户来说，升级路径非常平滑，无需额外学习新工具。Workspace Business 和 Enterprise 用户可以免费使用大部分 Gemini 2.0 功能，个人用户需要订阅 Google One AI Premium（$19.99/月）。