Google Gemini 2.0 发布:原生多模态与百万级上下文

1.4w 次阅读

Google 发布 Gemini 2.0,实现原生多模态输入输出,上下文窗口扩展至 200 万 token。在学术研究、长文档处理和跨语言翻译等场景中表现突出。

200 万 token 上下文:处理整本书不是问题

Gemini 2.0 的上下文窗口扩展至 200 万 token,相当于约 150 万汉字或一本 500 页的专业书籍。这让用户可以一次性上传完整的技术文档、法律合同集或学术论文合集,AI 会在全文范围内进行交叉引用和综合分析。在实际测试中,Gemini 2.0 能够准确回答关于文档中间部分细节的问题,长距离信息召回准确率达到 94%。这项能力对法律行业尤其有价值——律师可以上传整套合同文件,让 AI 自动识别条款冲突、遗漏事项和潜在风险点。在学术场景中,研究者可以将一个领域的 50 篇核心论文一次性输入,AI 会自动梳理研究脉络、标注各论文之间的引用关系和观点分歧。上下文扩展的技术基础是 Google 自研的"稀疏注意力"机制,它在保持 97% 信息召回率的同时将计算成本降低了 60%。这也意味着超长上下文不再是天价功能——API 定价仅比标准版上浮 20%。

原生多模态:不只是看懂图片

与上一代不同,Gemini 2.0 的多模态能力是原生训练的,而非后期拼接。这意味着它在理解图文混合内容(如带标注的技术图纸、含公式的学术论文、带数据标签的信息图表)时表现更加自然和准确。新增的视频理解能力可以逐帧分析视频内容,自动生成时间轴标注和内容摘要。在教育场景中,教师可以上传课堂录像让 AI 自动生成教学笔记和测验题目。Gemini 2.0 还首次支持"多模态输出"——不仅能理解图片,还能在对话中直接生成图像、图表和流程图。例如你可以说"画一个用户注册流程图",AI 会直接输出专业级的 SVG 流程图。在建筑和工业设计领域,用户可以上传草图让 AI 生成标准化的工程图纸。音频方面,Gemini 2.0 支持 40 种语言的实时语音对话,可以进行同声传译级别的多语言会议翻译。

DeepResearch 功能

Gemini 2.0 推出了 DeepResearch 功能,可以针对一个研究主题自动搜索多个来源、对比不同观点并生成带引用的综述报告。在测试中,一个"新能源汽车电池技术发展趋势"的研究任务,AI 在 3 分钟内检索了 47 篇相关文献并生成了 3000 字的分析报告,每个关键论点都标注了来源链接。DeepResearch 的工作流程包括五个步骤:主题解析(理解用户的研究意图和范围)、多源检索(同时搜索学术数据库、新闻、行业报告和专利库)、信息筛选(过滤低质量和过时内容)、观点聚合(提取不同来源的共识和分歧)、报告生成(按照学术论文格式输出带引用的综述)。对于投资分析师来说,DeepResearch 可以在每个交易日开盘前自动生成目标公司的最新动态汇总。对于产品经理,可以用它快速完成竞品分析和市场调研。Google 还开放了 DeepResearch API,允许企业将深度研究能力集成到自己的产品中。

与 Google 生态深度集成

Gemini 2.0 已深度集成到 Google Workspace 全家桶中,覆盖超过 30 亿用户的日常办公场景。在 Gmail 中,AI 可以自动起草回复、整理邮件摘要、按优先级排序收件箱,并识别需要跟进的邮件生成待办事项。在 Google Docs 中,支持智能编辑和格式化——用户可以说"把这段改成更正式的语气"或"给这个章节加一个数据表格",AI 会即时完成修改。在 Google Sheets 中,可以用自然语言生成复杂公式和数据透视表,例如"统计每个季度的销售额环比增长率并画成折线图"。在 Google Meet 中,Gemini 2.0 支持实时会议纪要、多语言字幕和会后摘要生成。对于已经使用 Google 生态的企业用户来说,升级路径非常平滑,无需额外学习新工具。Workspace Business 和 Enterprise 用户可以免费使用大部分 Gemini 2.0 功能,个人用户需要订阅 Google One AI Premium($19.99/月)。