1 比特意味着什么
常规模型的权重用 16 位或 8 位数字表示,BitNet 走到了理论边缘:每个权重基本只用一两个比特。代价听起来该是精度崩塌,但其训练方式让模型在极低比特下仍保住可用表现,换来的是内存占用和能耗的断崖式下降。微软不只放出模型,还配了专门优化的推理框架,让这些极限量化模型在普通 CPU 上也能跑得动,这是它比单纯发论文更进一步的地方。
为什么这条线值得盯
如果 1 比特路线持续被验证,含义相当大:模型能塞进手机、嵌入式设备乃至更廉价的芯片,推理摆脱对昂贵 GPU 的依赖,本地 AI 的硬件门槛被进一步推平。当然也要留住怀疑,极限量化在简单任务上够用,复杂推理上的能力损失需要独立复现来确认,BitNet 目前更多是研究方向而非即插即用的生产方案。但它代表的趋势是真实的:模型效率的前沿不在万亿参数那头,也在「能压到多小还能用」这一头。
via: Hacker News