两个卖点的真实价值
「原生多模态」意味着模型从底层就统一处理文字、图像、音频、视频,而非把几个单模态模型拼接起来,理论上能更自然地理解和关联跨模态信息,比如看懂一段视频里画面与解说的配合。「百万级上下文」则意味着模型一次能消化极长的输入,整本书、海量代码库、长篇文档一股脑塞进去而不丢失前文。这两项都不是跑分噱头,而是直接拓宽了 AI 能接的活,长文档分析、大型代码理解、复杂多模态任务。
能力之外要看的东西
对用户,超长上下文和原生多模态确实开启了新场景,但有几个现实问题比参数更重要。其一是「有效利用」,上下文窗口标称一百万,不等于模型能均匀用好这一百万里的每一处信息,长上下文中间部分被「忽略」是已知的通病,得用真实任务验证。其二是成本与速度,处理超长输入和多模态内容,token 消耗和延迟都会显著上升,账单和响应时间要算进来。其三还是那条老规矩,发布会的演示都是精心挑选的最佳样张,你的具体场景表现如何,得自己拿真实数据跑一遍。Google 在多模态和长上下文上的投入方向是对的,这些是把 AI 从「聊天」推向「干重活」的关键能力,但把它落到自己的工作流里能值多少,还得亲手验证。
via: 原文