演示的成色
先把问号摆出来:400B 参数的模型按常规精度需要数百 GB 内存,手机的物理上限摆在那里,所以这类演示必然依赖极限量化、稀疏化(实际激活的参数远少于总量)或部分计算卸载的组合。演示能跑通和日常可用是两回事,生成速度、发热、电池的代价在演示视频里通常被剪掉了。社区的讨论一半在惊叹,一半在追问这些被省略的参数,后一半更值得读。
方向比数字真实
刨去营销水分,趋势本身站得住:苹果芯片的统一内存架构恰好适合大模型推理,A 系列和 M 系列的内存带宽逐代上调,明显在为端侧 AI 铺路;MoE 架构让「大参数、小激活」成为可能,端侧旗舰模型的路线图不再是科幻。对用户的现实意义在一两年后:真正私密的 AI(数据不出设备)、无网可用的助手、零边际成本的本地推理。今天的演示有多少表演成分不重要,重要的是它演示的方向上,所有芯片厂都在真金白银地下注。
via: Hacker News