Google 发布 Gemini 2.0:原生多模态与百万级上下文

Google 推出 Gemini 2.0,主打原生多模态能力与百万级别的超长上下文窗口。两项硬指标,瞄准的是实打实的使用场景。

两个卖点的真实价值

「原生多模态」意味着模型从底层就统一处理文字、图像、音频、视频,而非把几个单模态模型拼接起来,理论上能更自然地理解和关联跨模态信息,比如看懂一段视频里画面与解说的配合。「百万级上下文」则意味着模型一次能消化极长的输入,整本书、海量代码库、长篇文档一股脑塞进去而不丢失前文。这两项都不是跑分噱头,而是直接拓宽了 AI 能接的活,长文档分析、大型代码理解、复杂多模态任务。

能力之外要看的东西

对用户,超长上下文和原生多模态确实开启了新场景,但有几个现实问题比参数更重要。其一是「有效利用」,上下文窗口标称一百万,不等于模型能均匀用好这一百万里的每一处信息,长上下文中间部分被「忽略」是已知的通病,得用真实任务验证。其二是成本与速度,处理超长输入和多模态内容,token 消耗和延迟都会显著上升,账单和响应时间要算进来。其三还是那条老规矩,发布会的演示都是精心挑选的最佳样张,你的具体场景表现如何,得自己拿真实数据跑一遍。Google 在多模态和长上下文上的投入方向是对的,这些是把 AI 从「聊天」推向「干重活」的关键能力,但把它落到自己的工作流里能值多少,还得亲手验证。

via: 原文